"LTX-2 是 Lightricks 的開源音訊-影片基礎模型，使用擴散 Transformer（DiT）架構生成同步的 4K 影片和音訊，在消費級 GPU 上可達 50fps。"

"LTX-2 支援哪些管線？"

"LTX-2 支援文字轉影片、圖片轉影片、影片轉影片和音訊轉影片管線，全部具有同步的音訊生成。"

"LTX-2 的硬體需求是什麼？"

"LTX-2 設計為在消費級 GPU 上運行。4K 生成需要 24 GB+ VRAM，而較低解析度可在 12-16 GB VRAM GPU 上運行。"

"LTX-2 如何處理音訊同步？"

"LTX-2 是首個原生生成同步音訊和影片的基於 DiT 的模型，無需單獨的音訊後處理。音訊在時間上與影片幀對齊。"

"LTX-2 的授權條款是什麼？"

"LTX-2 由 Lightricks 以寬鬆的開源授權發布。特定授權條款可在官方 GitHub 儲存庫中找到。"

LTX-2：Lightricks 開源 4K 音訊-影片基礎模型

LTX-2 是首個開源基於 DiT 的音訊-影片基礎模型，能在消費級 GPU 上以高達 50fps 生成同步的 4K 音訊和影片。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 03, 2026 閱讀 5 分鐘

生成式 AI 的格局已被影像擴散模型以及最近的影片擴散模型所改變。但生成聽起來和看起來一樣好的影片一直是一個頑固的獨立問題——直到現在。LTX-2 完全改變了這個局面。

由 Lightricks（熱門創意工具 Facetune 和 LTX Studio 背後的公司）開發，LTX-2 是首個開源基於 Diffusion Transformer（DiT）的音訊-影片基礎模型，能夠以高達每秒 50 幀的速度生成同步的 4K 音訊-影片內容。與需要拼湊獨立影片和音訊生成管線的先前方法不同，LTX-2 同時產生兩種模態，音訊自然與視覺內容對齊。

儲存庫：github.com/Lightricks/LTX-2

架構

功能	LTX-2 (基於 DiT)	傳統 U-Net 模型
音訊-影片同步	原生聯合生成	獨立管線
解析度擴展	擴展到 4K	通常限制在 1080p
幀率	高達 50fps	通常 24-30fps
時間連貫性	Transformer 跨幀注意力	附加時間層
消費級 GPU 支援	是（16-24 GB VRAM）	差異很大

graph TD
    subgraph "LTX-2 架構"
        A[輸入：文字 / 圖片 / 影片 / 音訊] --> B[時空編碼器]
        B --> C[DiT 主幹]
        C --> D[影片解碼器]
        C --> E[音訊解碼器]
        D --> F[輸出：4K 影片，最高 50fps]
        E --> G[輸出：同步音訊]
    end

支援的管線

管線	輸入	輸出解析度	典型生成時間（24 GB GPU）
文字轉影片	文字提示	高達 4K	2-5 分鐘
圖片轉影片	圖片 + 可選文字	高達 4K	1-4 分鐘
影片轉影片	影片 + 風格提示	高達 4K	3-8 分鐘
音訊轉影片	音訊軌道 + 文字	高達 1080p	2-6 分鐘

音訊-影片同步

graph LR
    A[輸入條件] --> B[共享潛在空間]
    B --> C[影片路徑]
    B --> D[音訊路徑]
    C --> E[影片幀]
    D --> F[音訊波形]
    E --> G{時間對齊}
    F --> G
    G --> H[同步輸出]

硬體需求

生成品質	最低 VRAM	建議 VRAM	GPU 範例
480p	8 GB	12 GB	RTX 3060, RTX 4060
1080p	12 GB	16 GB	RTX 4070 Ti, RTX 4080
4K	16 GB	24 GB	RTX 4090, RTX 5090

與其他模型比較

模型	開源	最高解析度	音訊同步	消費級 GPU
LTX-2 (Lightricks)	是	4K	原生	是
Stable Video Diffusion	是	1080p	否	是
Open-Sora	是	1080p	否	有限
CogVideo	是	720p	否	是

常見問題

什麼是 LTX-2？ Lightricks 的開源基於 DiT 的音訊-影片基礎模型，在消費級 GPU 上生成同步的 4K 影片和音訊，最高 50fps。

支援哪些管線？ 文字轉影片、圖片轉影片、影片轉影片和音訊轉影片，全部具有原生同步音訊輸出。

硬體需求？ 4K 需要 24 GB+ VRAM，1080p 需要 16 GB，480p 需要 12 GB。

音訊同步？ 從共享潛在表示生成音訊和影片，確保時間對齊無需後處理。

授權條款？ Lightricks 開源發布。確切條款在 GitHub 儲存庫中記錄。

LTX-2：Lightricks 開源 4K 音訊-影片基礎模型

架構

支援的管線

音訊-影片同步

硬體需求

與其他模型比較

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

LTX-2：Lightricks 開源 4K 音訊-影片基礎模型

架構

支援的管線

音訊-影片同步

硬體需求

與其他模型比較

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲 凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險