生成式 AI 的格局已被影像擴散模型以及最近的影片擴散模型所改變。但生成聽起來和看起來一樣好的影片一直是一個頑固的獨立問題——直到現在。LTX-2 完全改變了這個局面。
由 Lightricks(熱門創意工具 Facetune 和 LTX Studio 背後的公司)開發,LTX-2 是首個開源基於 Diffusion Transformer(DiT)的音訊-影片基礎模型,能夠以高達每秒 50 幀的速度生成同步的 4K 音訊-影片內容。與需要拼湊獨立影片和音訊生成管線的先前方法不同,LTX-2 同時產生兩種模態,音訊自然與視覺內容對齊。
架構
| 功能 | LTX-2 (基於 DiT) | 傳統 U-Net 模型 |
|---|---|---|
| 音訊-影片同步 | 原生聯合生成 | 獨立管線 |
| 解析度擴展 | 擴展到 4K | 通常限制在 1080p |
| 幀率 | 高達 50fps | 通常 24-30fps |
| 時間連貫性 | Transformer 跨幀注意力 | 附加時間層 |
| 消費級 GPU 支援 | 是(16-24 GB VRAM) | 差異很大 |
graph TD
subgraph "LTX-2 架構"
A[輸入:文字 / 圖片 / 影片 / 音訊] --> B[時空編碼器]
B --> C[DiT 主幹]
C --> D[影片解碼器]
C --> E[音訊解碼器]
D --> F[輸出:4K 影片,最高 50fps]
E --> G[輸出:同步音訊]
end支援的管線
| 管線 | 輸入 | 輸出解析度 | 典型生成時間(24 GB GPU) |
|---|---|---|---|
| 文字轉影片 | 文字提示 | 高達 4K | 2-5 分鐘 |
| 圖片轉影片 | 圖片 + 可選文字 | 高達 4K | 1-4 分鐘 |
| 影片轉影片 | 影片 + 風格提示 | 高達 4K | 3-8 分鐘 |
| 音訊轉影片 | 音訊軌道 + 文字 | 高達 1080p | 2-6 分鐘 |
音訊-影片同步
graph LR
A[輸入條件] --> B[共享潛在空間]
B --> C[影片路徑]
B --> D[音訊路徑]
C --> E[影片幀]
D --> F[音訊波形]
E --> G{時間對齊}
F --> G
G --> H[同步輸出]硬體需求
| 生成品質 | 最低 VRAM | 建議 VRAM | GPU 範例 |
|---|---|---|---|
| 480p | 8 GB | 12 GB | RTX 3060, RTX 4060 |
| 1080p | 12 GB | 16 GB | RTX 4070 Ti, RTX 4080 |
| 4K | 16 GB | 24 GB | RTX 4090, RTX 5090 |
與其他模型比較
| 模型 | 開源 | 最高解析度 | 音訊同步 | 消費級 GPU |
|---|---|---|---|---|
| LTX-2 (Lightricks) | 是 | 4K | 原生 | 是 |
| Stable Video Diffusion | 是 | 1080p | 否 | 是 |
| Open-Sora | 是 | 1080p | 否 | 有限 |
| CogVideo | 是 | 720p | 否 | 是 |
常見問題
什麼是 LTX-2? Lightricks 的開源基於 DiT 的音訊-影片基礎模型,在消費級 GPU 上生成同步的 4K 影片和音訊,最高 50fps。
支援哪些管線? 文字轉影片、圖片轉影片、影片轉影片和音訊轉影片,全部具有原生同步音訊輸出。
硬體需求? 4K 需要 24 GB+ VRAM,1080p 需要 16 GB,480p 需要 12 GB。
音訊同步? 從共享潛在表示生成音訊和影片,確保時間對齊無需後處理。
授權條款? Lightricks 開源發布。確切條款在 GitHub 儲存庫中記錄。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!