AI

VACE:阿里巴巴全能影片創作與編輯模型(ICCV 2025)

VACE 是阿里巴巴通義實驗室開發的全能影片創作與編輯模型,統一了參考轉影片、影片轉影片和遮罩編輯任務。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
VACE:阿里巴巴全能影片創作與編輯模型(ICCV 2025)

影片生成和編輯傳統上由不同的模型處理——一個模型用於文字轉影片,另一個用於影片風格化,再一個用於修補。這種碎片化使得建立全面的影片製作管線變得困難,迫使從業者學習多個模型介面。VACE(Video All-to-All Creation and Editing)透過將所有影片創作和編輯任務統一在單一擴散轉換器模型中,消除了這個問題。

已被 ICCV 2025 接受的 VACE 是阿里巴巴通義實驗室的作品。VACE 背後的關鍵洞見在於,影片創作和編輯任務共享共同的底層結構:它們都涉及基於參考影格、文字描述和遮罩資訊的某種組合來生成或修改影片內容。透過設計統一的條件機制,VACE 可以處理所有這些任務,無需特定任務的模型變體。

該模型支援三大任務類別:影片創作(從文字、圖片或參考片段生成新影片)、影片編輯(風格化或轉換現有影片),以及遮罩編輯(使用遮罩進行修補、外延或物件移除的精確修改)。


VACE 可以執行哪些任務?

VACE 的統一架構透過不同的輸入配置,實現了廣泛的影片生成和編輯任務。

graph TD
    A[VACE 統一模型] --> B[影片創作]
    A --> C[影片編輯]
    A --> D[遮罩編輯]
    B --> E[文字轉影片]
    B --> F[圖片轉影片]
    B --> G[參考轉影片]
    C --> H[風格轉換]
    C --> I[物件替換]
    C --> J[背景更換]
    D --> K[影片修補]
    D --> L[影片外延]
    D --> M[物件移除]
任務類別輸入類型輸出使用案例
文字轉影片文字提示生成的影片從描述建立 B-roll
圖片轉影片圖片 + 文字動畫影片讓照片栩栩如生
參考轉影片參考影片 + 文字風格化影片套用參考片段的動態
風格轉換來源影片 + 風格文字風格化影片將影像轉換為動畫風格
影片修補影片 + 遮罩修復的影片移除不需要的物體
影片外延影片 + 擴展遮罩擴展的影片擴展影片畫面邊界

VACE 的架構與其他方法相比如何?

VACE 的統一方法與為每個任務訓練單獨模型或適配器的常見做法形成對比。

面向VACE(統一)任務特定模型多適配器方法
架構單一基礎模型每個任務獨立模型單一基礎 + 獨立適配器
訓練聯合訓練獨立訓練序列適配器訓練
參數效率一組權重N 組權重基礎 + N 個適配器
跨任務遷移自然知識共享無遷移受限於適配器隔離
推論開銷載入單一模型載入適當模型載入基礎 + 切換適配器
維護單一程式碼庫多個程式碼庫單一程式碼庫 + 適配器管理

統一方法意味著在一個任務上的訓練改進能使所有其他任務受益。例如,從影片轉影片轉換中學習更好的動態表示,能提升模型在文字轉影片創作中生成連貫動態的能力。


有哪些模型變體可用?需要什麼硬體?

VACE 提供兩種變體,以適應不同的硬體和品質需求。

變體參數建議 GPU推論速度品質
VACE 完整版約 7BA100 / H100即時(A100)最佳
VACE 精簡版約 3BRTX 4090 / A10G快(RTX 4090)
功能完整模型精簡模型
解析度1024x576720x480
影格數16-32 影格8-16 影格
GPU 記憶體約 24 GB約 12 GB
推論時間約 15 秒(A100,16 影格)約 20 秒(RTX 4090,16 影格)

常見問題

什麼是 VACE? VACE(Video All-to-All Creation and Editing)是阿里巴巴通義實驗室開發的統一影片生成與編輯模型,已被 ICCV 2025 接受。它在單一架構中處理參考轉影片生成、影片轉影片轉換和遮罩影片編輯。

VACE 支援哪些任務類別? VACE 支援三大任務類別:影片創作、影片編輯和遮罩編輯。

有哪些模型變體可用? VACE 提供完整模型和輕量精簡版。完整模型提供最高品質,精簡版針對消費級 GPU 進行了優化。

VACE 的架構是什麼? VACE 使用統一的擴散轉換器架構,採用任務無關設計和統一的條件機制。

如何安裝和使用 VACE? 可透過複製儲存庫並設定環境來安裝。完整模型建議使用 A100 GPU,精簡版可在 RTX 4090 上執行。


延伸閱讀

TAG