VACE：阿里巴巴全能影片創作與編輯模型（ICCV 2025）

Q: "什麼是 VACE？"

"VACE（Video All-to-All Creation and Editing）是阿里巴巴通義實驗室開發的統一影片生成與編輯模型，已被 ICCV 2025 接受。它在單一架構中處理參考轉影片生成、影片轉影片轉換和遮罩影片編輯，無需為每個任務使用單獨的模型。"

Q: "VACE 支援哪些任務類別？"

"VACE 支援三大任務類別：影片創作（文字轉影片、圖片轉影片、參考轉影片）、影片編輯（影片轉影片風格轉換、物件替換）和遮罩編輯（修補、外延、物件移除）。使用者透過不同的輸入組合來指定任務，而非選擇單獨的模型模式。"

Q: "有哪些模型變體可用？"

"VACE 提供完整模型變體和輕量精簡版變體。完整模型為所有任務提供最高品質，而精簡版則針對消費級 GPU 上的更快推論進行了優化。兩種變體共用相同的架構，但參數數量和推論速度不同。"

Q: "VACE 的架構是什麼？"

"VACE 使用統一的擴散轉換器架構，採用任務無關設計。VACE 不是為每個任務訓練單獨的適配器，而是使用一個統一的條件機制，可將任何影片創作或編輯任務表示為參考影格、目標影格和遮罩資訊的組合。這種共享表示使所有任務都能從聯合訓練中受益。"

Q: "如何安裝和使用 VACE？"

"VACE 可透過複製儲存庫並使用提供的 requirements 設定環境來安裝。該儲存庫包含所有支援任務的推論腳本、用於互動使用的 Gradio 網頁介面，以及在 Hugging Face 上提供的預訓練模型權重。完整模型建議使用 A100 GPU，而精簡版可在 RTX 4090 上執行。"

VACE 是阿里巴巴通義實驗室開發的全能影片創作與編輯模型，統一了參考轉影片、影片轉影片和遮罩編輯任務。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 04, 2026 閱讀 8 分鐘

影片生成和編輯傳統上由不同的模型處理——一個模型用於文字轉影片，另一個用於影片風格化，再一個用於修補。這種碎片化使得建立全面的影片製作管線變得困難，迫使從業者學習多個模型介面。VACE（Video All-to-All Creation and Editing）透過將所有影片創作和編輯任務統一在單一擴散轉換器模型中，消除了這個問題。

已被 ICCV 2025 接受的 VACE 是阿里巴巴通義實驗室的作品。VACE 背後的關鍵洞見在於，影片創作和編輯任務共享共同的底層結構：它們都涉及基於參考影格、文字描述和遮罩資訊的某種組合來生成或修改影片內容。透過設計統一的條件機制，VACE 可以處理所有這些任務，無需特定任務的模型變體。

該模型支援三大任務類別：影片創作（從文字、圖片或參考片段生成新影片）、影片編輯（風格化或轉換現有影片），以及遮罩編輯（使用遮罩進行修補、外延或物件移除的精確修改）。

VACE 可以執行哪些任務？

VACE 的統一架構透過不同的輸入配置，實現了廣泛的影片生成和編輯任務。

graph TD
    A[VACE 統一模型] --> B[影片創作]
    A --> C[影片編輯]
    A --> D[遮罩編輯]
    B --> E[文字轉影片]
    B --> F[圖片轉影片]
    B --> G[參考轉影片]
    C --> H[風格轉換]
    C --> I[物件替換]
    C --> J[背景更換]
    D --> K[影片修補]
    D --> L[影片外延]
    D --> M[物件移除]

任務類別	輸入類型	輸出	使用案例
文字轉影片	文字提示	生成的影片	從描述建立 B-roll
圖片轉影片	圖片 + 文字	動畫影片	讓照片栩栩如生
參考轉影片	參考影片 + 文字	風格化影片	套用參考片段的動態
風格轉換	來源影片 + 風格文字	風格化影片	將影像轉換為動畫風格
影片修補	影片 + 遮罩	修復的影片	移除不需要的物體
影片外延	影片 + 擴展遮罩	擴展的影片	擴展影片畫面邊界

VACE 的架構與其他方法相比如何？

VACE 的統一方法與為每個任務訓練單獨模型或適配器的常見做法形成對比。

面向	VACE（統一）	任務特定模型	多適配器方法
架構	單一基礎模型	每個任務獨立模型	單一基礎 + 獨立適配器
訓練	聯合訓練	獨立訓練	序列適配器訓練
參數效率	一組權重	N 組權重	基礎 + N 個適配器
跨任務遷移	自然知識共享	無遷移	受限於適配器隔離
推論開銷	載入單一模型	載入適當模型	載入基礎 + 切換適配器
維護	單一程式碼庫	多個程式碼庫	單一程式碼庫 + 適配器管理

統一方法意味著在一個任務上的訓練改進能使所有其他任務受益。例如，從影片轉影片轉換中學習更好的動態表示，能提升模型在文字轉影片創作中生成連貫動態的能力。

有哪些模型變體可用？需要什麼硬體？

VACE 提供兩種變體，以適應不同的硬體和品質需求。

變體	參數	建議 GPU	推論速度	品質
VACE 完整版	約 7B	A100 / H100	即時（A100）	最佳
VACE 精簡版	約 3B	RTX 4090 / A10G	快（RTX 4090）	高

功能	完整模型	精簡模型
解析度	1024x576	720x480
影格數	16-32 影格	8-16 影格
GPU 記憶體	約 24 GB	約 12 GB
推論時間	約 15 秒（A100，16 影格）	約 20 秒（RTX 4090，16 影格）

常見問題

什麼是 VACE？ VACE（Video All-to-All Creation and Editing）是阿里巴巴通義實驗室開發的統一影片生成與編輯模型，已被 ICCV 2025 接受。它在單一架構中處理參考轉影片生成、影片轉影片轉換和遮罩影片編輯。

VACE 支援哪些任務類別？ VACE 支援三大任務類別：影片創作、影片編輯和遮罩編輯。

有哪些模型變體可用？ VACE 提供完整模型和輕量精簡版。完整模型提供最高品質，精簡版針對消費級 GPU 進行了優化。

VACE 的架構是什麼？ VACE 使用統一的擴散轉換器架構，採用任務無關設計和統一的條件機制。

如何安裝和使用 VACE？ 可透過複製儲存庫並設定環境來安裝。完整模型建議使用 A100 GPU，精簡版可在 RTX 4090 上執行。

VACE：阿里巴巴全能影片創作與編輯模型（ICCV 2025）

VACE 可以執行哪些任務？

VACE 的架構與其他方法相比如何？

有哪些模型變體可用？需要什麼硬體？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

VACE：阿里巴巴全能影片創作與編輯模型（ICCV 2025）

VACE 可以執行哪些任務？

VACE 的架構與其他方法相比如何？

有哪些模型變體可用？需要什麼硬體？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲 凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險