AI

LTX-2:Lightricks 开源 4K 音频-视频基础模型

LTX-2 是首个开源基于 DiT 的音频-视频基础模型,能在消费级 GPU 上以高达 50fps 生成同步的 4K 音频和视频。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
LTX-2:Lightricks 开源 4K 音频-视频基础模型

LTX-2 是首个开源基于 Diffusion Transformer(DiT)的音频-视频基础模型,能够以高达每秒 50 帧的速度生成同步的 4K 音频-视频内容。

仓库github.com/Lightricks/LTX-2


架构

功能LTX-2 (DiT)传统 U-Net 模型
音频-视频同步原生联合生成独立流水线
分辨率扩展扩展到 4K通常限制在 1080p
帧率高达 50fps通常 24-30fps
时间连贯性Transformer 跨帧注意力附加时间层
消费级 GPU 支持是(16-24 GB VRAM)差异很大

支持的流水线

流水线输入输出分辨率典型生成时间(24 GB GPU)
文本转视频文本提示高达 4K2-5 分钟
图像转视频图像 + 可选文本高达 4K1-4 分钟
视频转视频视频 + 风格提示高达 4K3-8 分钟
音频转视频音频轨道 + 文本高达 1080p2-6 分钟

硬件要求

生成质量最低 VRAM建议 VRAMGPU 示例
480p8 GB12 GBRTX 3060, RTX 4060
1080p12 GB16 GBRTX 4070 Ti, RTX 4080
4K16 GB24 GBRTX 4090, RTX 5090

与竞品比较

模型开源最高分辨率音频同步消费级 GPU
LTX-24K原生
Stable Video Diffusion1080p
Open-Sora1080p有限
CogVideo720p

常见问题

什么是 LTX-2? Lightricks 的开源 DiT 音频-视频基础模型,生成同步的 4K 视频和音频,最高 50fps。

支持的流水线? 文本转视频、图像转视频、视频转视频和音频转视频。

硬件? 4K 需要 24 GB+ VRAM。

音频同步? 从共享潜在表示原生生成。

许可证? 开源,确切条款见 GitHub。

扩展阅读

TAG
CATEGORIES