AI

LTX-2:Lightricks 開源 4K 音訊-影片基礎模型

LTX-2 是首個開源基於 DiT 的音訊-影片基礎模型,能在消費級 GPU 上以高達 50fps 生成同步的 4K 音訊和影片。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LTX-2:Lightricks 開源 4K 音訊-影片基礎模型

生成式 AI 的格局已被影像擴散模型以及最近的影片擴散模型所改變。但生成聽起來和看起來一樣好的影片一直是一個頑固的獨立問題——直到現在。LTX-2 完全改變了這個局面。

Lightricks(熱門創意工具 Facetune 和 LTX Studio 背後的公司)開發,LTX-2 是首個開源基於 Diffusion Transformer(DiT)的音訊-影片基礎模型,能夠以高達每秒 50 幀的速度生成同步的 4K 音訊-影片內容。與需要拼湊獨立影片和音訊生成管線的先前方法不同,LTX-2 同時產生兩種模態,音訊自然與視覺內容對齊。

儲存庫github.com/Lightricks/LTX-2


架構

功能LTX-2 (基於 DiT)傳統 U-Net 模型
音訊-影片同步原生聯合生成獨立管線
解析度擴展擴展到 4K通常限制在 1080p
幀率高達 50fps通常 24-30fps
時間連貫性Transformer 跨幀注意力附加時間層
消費級 GPU 支援是(16-24 GB VRAM)差異很大

支援的管線

管線輸入輸出解析度典型生成時間(24 GB GPU)
文字轉影片文字提示高達 4K2-5 分鐘
圖片轉影片圖片 + 可選文字高達 4K1-4 分鐘
影片轉影片影片 + 風格提示高達 4K3-8 分鐘
音訊轉影片音訊軌道 + 文字高達 1080p2-6 分鐘

音訊-影片同步

硬體需求

生成品質最低 VRAM建議 VRAMGPU 範例
480p8 GB12 GBRTX 3060, RTX 4060
1080p12 GB16 GBRTX 4070 Ti, RTX 4080
4K16 GB24 GBRTX 4090, RTX 5090

與其他模型比較

模型開源最高解析度音訊同步消費級 GPU
LTX-2 (Lightricks)4K原生
Stable Video Diffusion1080p
Open-Sora1080p有限
CogVideo720p

常見問題

什麼是 LTX-2? Lightricks 的開源基於 DiT 的音訊-影片基礎模型,在消費級 GPU 上生成同步的 4K 影片和音訊,最高 50fps。

支援哪些管線? 文字轉影片、圖片轉影片、影片轉影片和音訊轉影片,全部具有原生同步音訊輸出。

硬體需求? 4K 需要 24 GB+ VRAM,1080p 需要 16 GB,480p 需要 12 GB。

音訊同步? 從共享潛在表示生成音訊和影片,確保時間對齊無需後處理。

授權條款? Lightricks 開源發布。確切條款在 GitHub 儲存庫中記錄。

延伸閱讀

TAG