视频生成

AI May 04, 2026

VACE：阿里巴巴全能视频创作与编辑模型（ICCV 2025）

视频生成和编辑传统上由不同的模型处理——一个模型用于文本转视频，另一个用于视频风格化，再一个用于修补。这种碎片化使得构建全面的视频制作管线变得困难，迫使从业者学习多个模型接口。VACE（Video All-to-All Creation and Editing）通过将所有视频创作和编辑任务 …

AI May 03, 2026

LTX-2 是首个开源基于 Diffusion Transformer（DiT）的音频-视频基础模型，能够以高达每秒 50 帧的速度生成同步的 4K 音频-视频内容。仓库：github.com/Lightricks/LTX-2 架构功能 LTX-2 (DiT) 传统 U-Net 模型 …

AI May 02, 2026

StoryDiffusion 是南开大学与字节跳动的一项研究项目，针对生成式 AI 中最困难的问题之一：在长序列图像与视频中维持视觉一致性。作为一项重要的研究贡献，它引入了一种新颖的**一致性自注意力（CSA）**机制，使扩散模型能够生成连贯的漫画条、动画和视频——全部无需微调或逐序列训练 …