AI

VACE:阿里巴巴全能视频创作与编辑模型(ICCV 2025)

VACE 是阿里巴巴通义实验室开发的全能视频创作与编辑模型,统一了参考转视频、视频转视频和蒙版编辑任务。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
VACE:阿里巴巴全能视频创作与编辑模型(ICCV 2025)

视频生成和编辑传统上由不同的模型处理——一个模型用于文本转视频,另一个用于视频风格化,再一个用于修补。这种碎片化使得构建全面的视频制作管线变得困难,迫使从业者学习多个模型接口。VACE(Video All-to-All Creation and Editing)通过将所有视频创作和编辑任务统一在单一扩散变换器模型中,消除了这个问题。

已被 ICCV 2025 接受的 VACE 是阿里巴巴通义实验室的作品。VACE 背后的关键洞见在于,视频创作和编辑任务共享共同的底层结构:它们都涉及基于参考帧、文本描述和蒙版信息的某种组合来生成或修改视频内容。通过设计统一的条件机制,VACE 可以处理所有这些任务,无需特定任务的模型变体。

该模型支持三大任务类别:视频创作(从文本、图像或参考片段生成新视频)、视频编辑(风格化或转换现有视频),以及蒙版编辑(使用蒙版进行修补、外延或对象移除的精确修改)。


VACE 可以执行哪些任务?

VACE 的统一架构通过不同的输入配置,实现了广泛的视频生成和编辑任务。

graph TD
    A[VACE 统一模型] --> B[视频创作]
    A --> C[视频编辑]
    A --> D[蒙版编辑]
    B --> E[文本转视频]
    B --> F[图像转视频]
    B --> G[参考转视频]
    C --> H[风格转换]
    C --> I[对象替换]
    C --> J[背景更换]
    D --> K[视频修补]
    D --> L[视频外延]
    D --> M[对象移除]
任务类别输入类型输出使用案例
文本转视频文本提示生成的视频从描述创建 B-roll
图像转视频图像 + 文本动画视频让照片栩栩如生
参考转视频参考视频 + 文本风格化视频应用参考片段的动态
风格转换源视频 + 风格文本风格化视频将影像转换为动画风格
视频修补视频 + 蒙版修复的视频移除不需要的物体
视频外延视频 + 扩展蒙版扩展的视频扩展视频画面边界

VACE 的架构与其他方法相比如何?

VACE 的统一方法与为每个任务训练单独模型或适配器的常见做法形成对比。

方面VACE(统一)任务特定模型多适配器方法
架构单一基础模型每个任务独立模型单一基础 + 独立适配器
训练联合训练独立训练序列适配器训练
参数效率一组权重N 组权重基础 + N 个适配器
跨任务迁移自然知识共享无迁移受限于适配器隔离
推理开销加载单一模型加载适当模型加载基础 + 切换适配器
维护单一代码库多个代码库单一代码库 + 适配器管理

统一方法意味着在一个任务上的训练改进能使所有其他任务受益。


有哪些模型变体可用?需要什么硬件?

VACE 提供两种变体,以适应不同的硬件和品质需求。

变体参数建议 GPU推理速度品质
VACE 完整版约 7BA100 / H100实时(A100)最佳
VACE 精简版约 3BRTX 4090 / A10G快(RTX 4090)
功能完整模型精简模型
分辨率1024x576720x480
帧数16-32 帧8-16 帧
GPU 内存约 24 GB约 12 GB
推理时间约 15 秒(A100,16 帧)约 20 秒(RTX 4090,16 帧)

常见问题

什么是 VACE? VACE 是阿里巴巴通义实验室开发的统一视频生成与编辑模型,已被 ICCV 2025 接受。

VACE 支持哪些任务类别? 三大类别:视频创作、视频编辑和蒙版编辑。

有哪些模型变体? 完整版和精简版。完整版品质最佳,精简版针对消费级 GPU 优化。

VACE 的架构? 统一扩散变换器架构,采用任务无关设计和统一条件机制。

如何安装? 克隆仓库并设置环境。完整模型建议 A100,精简版可在 RTX 4090 上运行。


延伸阅读

TAG
CATEGORIES