LTX-2 是首个开源基于 Diffusion Transformer(DiT)的音频-视频基础模型,能够以高达每秒 50 帧的速度生成同步的 4K 音频-视频内容。
架构
| 功能 | LTX-2 (DiT) | 传统 U-Net 模型 |
|---|---|---|
| 音频-视频同步 | 原生联合生成 | 独立流水线 |
| 分辨率扩展 | 扩展到 4K | 通常限制在 1080p |
| 帧率 | 高达 50fps | 通常 24-30fps |
| 时间连贯性 | Transformer 跨帧注意力 | 附加时间层 |
| 消费级 GPU 支持 | 是(16-24 GB VRAM) | 差异很大 |
graph TD
subgraph "LTX-2 架构"
A[输入:文本 / 图像 / 视频 / 音频] --> B[时空编码器]
B --> C[DiT 主干]
C --> D[视频解码器]
C --> E[音频解码器]
D --> F[输出:4K 视频,最高 50fps]
E --> G[输出:同步音频]
end支持的流水线
| 流水线 | 输入 | 输出分辨率 | 典型生成时间(24 GB GPU) |
|---|---|---|---|
| 文本转视频 | 文本提示 | 高达 4K | 2-5 分钟 |
| 图像转视频 | 图像 + 可选文本 | 高达 4K | 1-4 分钟 |
| 视频转视频 | 视频 + 风格提示 | 高达 4K | 3-8 分钟 |
| 音频转视频 | 音频轨道 + 文本 | 高达 1080p | 2-6 分钟 |
硬件要求
| 生成质量 | 最低 VRAM | 建议 VRAM | GPU 示例 |
|---|---|---|---|
| 480p | 8 GB | 12 GB | RTX 3060, RTX 4060 |
| 1080p | 12 GB | 16 GB | RTX 4070 Ti, RTX 4080 |
| 4K | 16 GB | 24 GB | RTX 4090, RTX 5090 |
与竞品比较
| 模型 | 开源 | 最高分辨率 | 音频同步 | 消费级 GPU |
|---|---|---|---|---|
| LTX-2 | 是 | 4K | 原生 | 是 |
| Stable Video Diffusion | 是 | 1080p | 否 | 是 |
| Open-Sora | 是 | 1080p | 否 | 有限 |
| CogVideo | 是 | 720p | 否 | 是 |
常见问题
什么是 LTX-2? Lightricks 的开源 DiT 音频-视频基础模型,生成同步的 4K 视频和音频,最高 50fps。
支持的流水线? 文本转视频、图像转视频、视频转视频和音频转视频。
硬件? 4K 需要 24 GB+ VRAM。
音频同步? 从共享潜在表示原生生成。
许可证? 开源,确切条款见 GitHub。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!