"VACE（Video All-to-All Creation and Editing）是阿里巴巴通义实验室开发的统一视频生成与编辑模型，已被 ICCV 2025 接受。它在单一架构中处理参考转视频生成、视频转视频转换和蒙版视频编辑，无需为每个任务使用单独的模型。"

"VACE 的架构是什么？"

"VACE 使用统一的扩散变换器架构，采用任务无关设计。VACE 不是为每个任务训练单独的适配器，而是使用一个统一的条件机制，可将任何视频创作或编辑任务表示为参考帧、目标帧和蒙版信息的组合。这种共享表示使所有任务都能从联合训练中受益。"

"如何安装和使用 VACE？"

"VACE 可通过克隆仓库并使用提供的 requirements 设置环境来安装。该仓库包含所有支持任务的推理脚本、用于交互使用的 Gradio 网页界面，以及在 Hugging Face 上提供的预训练模型权重。完整模型建议使用 A100 GPU，而精简版可在 RTX 4090 上运行。"

VACE：阿里巴巴全能视频创作与编辑模型（ICCV 2025）

Q: "VACE 支持哪些任务类别？"

"VACE 支持三大任务类别：视频创作（文本转视频、图像转视频、参考转视频）、视频编辑（视频转视频风格转换、对象替换）和蒙版编辑（修补、外延、对象移除）。用户通过不同的输入组合来指定任务，而非选择单独的模型模式。"

Q: "有哪些模型变体可用？"

"VACE 提供完整模型变体和轻量精简版变体。完整模型为所有任务提供最高品质，而精简版则针对消费级 GPU 上的更快推理进行了优化。两种变体共享相同的架构，但参数数量和推理速度不同。"

VACE 是阿里巴巴通义实验室开发的全能视频创作与编辑模型，统一了参考转视频、视频转视频和蒙版编辑任务。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 04, 2026 阅读 7 分钟

视频生成和编辑传统上由不同的模型处理——一个模型用于文本转视频，另一个用于视频风格化，再一个用于修补。这种碎片化使得构建全面的视频制作管线变得困难，迫使从业者学习多个模型接口。VACE（Video All-to-All Creation and Editing）通过将所有视频创作和编辑任务统一在单一扩散变换器模型中，消除了这个问题。

已被 ICCV 2025 接受的 VACE 是阿里巴巴通义实验室的作品。VACE 背后的关键洞见在于，视频创作和编辑任务共享共同的底层结构：它们都涉及基于参考帧、文本描述和蒙版信息的某种组合来生成或修改视频内容。通过设计统一的条件机制，VACE 可以处理所有这些任务，无需特定任务的模型变体。

该模型支持三大任务类别：视频创作（从文本、图像或参考片段生成新视频）、视频编辑（风格化或转换现有视频），以及蒙版编辑（使用蒙版进行修补、外延或对象移除的精确修改）。

VACE 可以执行哪些任务？

VACE 的统一架构通过不同的输入配置，实现了广泛的视频生成和编辑任务。

graph TD
    A[VACE 统一模型] --> B[视频创作]
    A --> C[视频编辑]
    A --> D[蒙版编辑]
    B --> E[文本转视频]
    B --> F[图像转视频]
    B --> G[参考转视频]
    C --> H[风格转换]
    C --> I[对象替换]
    C --> J[背景更换]
    D --> K[视频修补]
    D --> L[视频外延]
    D --> M[对象移除]

任务类别	输入类型	输出	使用案例
文本转视频	文本提示	生成的视频	从描述创建 B-roll
图像转视频	图像 + 文本	动画视频	让照片栩栩如生
参考转视频	参考视频 + 文本	风格化视频	应用参考片段的动态
风格转换	源视频 + 风格文本	风格化视频	将影像转换为动画风格
视频修补	视频 + 蒙版	修复的视频	移除不需要的物体
视频外延	视频 + 扩展蒙版	扩展的视频	扩展视频画面边界

VACE 的架构与其他方法相比如何？

VACE 的统一方法与为每个任务训练单独模型或适配器的常见做法形成对比。

方面	VACE（统一）	任务特定模型	多适配器方法
架构	单一基础模型	每个任务独立模型	单一基础 + 独立适配器
训练	联合训练	独立训练	序列适配器训练
参数效率	一组权重	N 组权重	基础 + N 个适配器
跨任务迁移	自然知识共享	无迁移	受限于适配器隔离
推理开销	加载单一模型	加载适当模型	加载基础 + 切换适配器
维护	单一代码库	多个代码库	单一代码库 + 适配器管理

统一方法意味着在一个任务上的训练改进能使所有其他任务受益。

有哪些模型变体可用？需要什么硬件？

VACE 提供两种变体，以适应不同的硬件和品质需求。

变体	参数	建议 GPU	推理速度	品质
VACE 完整版	约 7B	A100 / H100	实时（A100）	最佳
VACE 精简版	约 3B	RTX 4090 / A10G	快（RTX 4090）	高

功能	完整模型	精简模型
分辨率	1024x576	720x480
帧数	16-32 帧	8-16 帧
GPU 内存	约 24 GB	约 12 GB
推理时间	约 15 秒（A100，16 帧）	约 20 秒（RTX 4090，16 帧）

常见问题

什么是 VACE？ VACE 是阿里巴巴通义实验室开发的统一视频生成与编辑模型，已被 ICCV 2025 接受。

VACE 支持哪些任务类别？ 三大类别：视频创作、视频编辑和蒙版编辑。

有哪些模型变体？ 完整版和精简版。完整版品质最佳，精简版针对消费级 GPU 优化。

VACE 的架构？ 统一扩散变换器架构，采用任务无关设计和统一条件机制。

如何安装？ 克隆仓库并设置环境。完整模型建议 A100，精简版可在 RTX 4090 上运行。

VACE：阿里巴巴全能视频创作与编辑模型（ICCV 2025）

VACE 可以执行哪些任务？

VACE 的架构与其他方法相比如何？

有哪些模型变体可用？需要什么硬件？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

VACE：阿里巴巴全能视频创作与编辑模型（ICCV 2025）

VACE 可以执行哪些任务？

VACE 的架构与其他方法相比如何？

有哪些模型变体可用？需要什么硬件？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险