影片生成和編輯傳統上由不同的模型處理——一個模型用於文字轉影片,另一個用於影片風格化,再一個用於修補。這種碎片化使得建立全面的影片製作管線變得困難,迫使從業者學習多個模型介面。VACE(Video All-to-All Creation and Editing)透過將所有影片創作和編輯任務統一在單一擴散轉換器模型中,消除了這個問題。
已被 ICCV 2025 接受的 VACE 是阿里巴巴通義實驗室的作品。VACE 背後的關鍵洞見在於,影片創作和編輯任務共享共同的底層結構:它們都涉及基於參考影格、文字描述和遮罩資訊的某種組合來生成或修改影片內容。透過設計統一的條件機制,VACE 可以處理所有這些任務,無需特定任務的模型變體。
該模型支援三大任務類別:影片創作(從文字、圖片或參考片段生成新影片)、影片編輯(風格化或轉換現有影片),以及遮罩編輯(使用遮罩進行修補、外延或物件移除的精確修改)。
VACE 可以執行哪些任務?
VACE 的統一架構透過不同的輸入配置,實現了廣泛的影片生成和編輯任務。
graph TD
A[VACE 統一模型] --> B[影片創作]
A --> C[影片編輯]
A --> D[遮罩編輯]
B --> E[文字轉影片]
B --> F[圖片轉影片]
B --> G[參考轉影片]
C --> H[風格轉換]
C --> I[物件替換]
C --> J[背景更換]
D --> K[影片修補]
D --> L[影片外延]
D --> M[物件移除]
| 任務類別 | 輸入類型 | 輸出 | 使用案例 |
|---|---|---|---|
| 文字轉影片 | 文字提示 | 生成的影片 | 從描述建立 B-roll |
| 圖片轉影片 | 圖片 + 文字 | 動畫影片 | 讓照片栩栩如生 |
| 參考轉影片 | 參考影片 + 文字 | 風格化影片 | 套用參考片段的動態 |
| 風格轉換 | 來源影片 + 風格文字 | 風格化影片 | 將影像轉換為動畫風格 |
| 影片修補 | 影片 + 遮罩 | 修復的影片 | 移除不需要的物體 |
| 影片外延 | 影片 + 擴展遮罩 | 擴展的影片 | 擴展影片畫面邊界 |
VACE 的架構與其他方法相比如何?
VACE 的統一方法與為每個任務訓練單獨模型或適配器的常見做法形成對比。
| 面向 | VACE(統一) | 任務特定模型 | 多適配器方法 |
|---|---|---|---|
| 架構 | 單一基礎模型 | 每個任務獨立模型 | 單一基礎 + 獨立適配器 |
| 訓練 | 聯合訓練 | 獨立訓練 | 序列適配器訓練 |
| 參數效率 | 一組權重 | N 組權重 | 基礎 + N 個適配器 |
| 跨任務遷移 | 自然知識共享 | 無遷移 | 受限於適配器隔離 |
| 推論開銷 | 載入單一模型 | 載入適當模型 | 載入基礎 + 切換適配器 |
| 維護 | 單一程式碼庫 | 多個程式碼庫 | 單一程式碼庫 + 適配器管理 |
統一方法意味著在一個任務上的訓練改進能使所有其他任務受益。例如,從影片轉影片轉換中學習更好的動態表示,能提升模型在文字轉影片創作中生成連貫動態的能力。
有哪些模型變體可用?需要什麼硬體?
VACE 提供兩種變體,以適應不同的硬體和品質需求。
| 變體 | 參數 | 建議 GPU | 推論速度 | 品質 |
|---|---|---|---|---|
| VACE 完整版 | 約 7B | A100 / H100 | 即時(A100) | 最佳 |
| VACE 精簡版 | 約 3B | RTX 4090 / A10G | 快(RTX 4090) | 高 |
| 功能 | 完整模型 | 精簡模型 |
|---|---|---|
| 解析度 | 1024x576 | 720x480 |
| 影格數 | 16-32 影格 | 8-16 影格 |
| GPU 記憶體 | 約 24 GB | 約 12 GB |
| 推論時間 | 約 15 秒(A100,16 影格) | 約 20 秒(RTX 4090,16 影格) |
常見問題
什麼是 VACE? VACE(Video All-to-All Creation and Editing)是阿里巴巴通義實驗室開發的統一影片生成與編輯模型,已被 ICCV 2025 接受。它在單一架構中處理參考轉影片生成、影片轉影片轉換和遮罩影片編輯。
VACE 支援哪些任務類別? VACE 支援三大任務類別:影片創作、影片編輯和遮罩編輯。
有哪些模型變體可用? VACE 提供完整模型和輕量精簡版。完整模型提供最高品質,精簡版針對消費級 GPU 進行了優化。
VACE 的架構是什麼? VACE 使用統一的擴散轉換器架構,採用任務無關設計和統一的條件機制。
如何安裝和使用 VACE? 可透過複製儲存庫並設定環境來安裝。完整模型建議使用 A100 GPU,精簡版可在 RTX 4090 上執行。
延伸閱讀
- VACE GitHub 儲存庫 – 原始碼、模型和文件
- VACE 學術論文(ICCV 2025) – 統一影片框架的研究論文
- 阿里巴巴通義實驗室研究 – 阿里巴巴的 AI 研究實驗室
- ICCV 2025 會議 – VACE 被接受的會議
- VACE Hugging Face 模型 – 預訓練模型權重和展示
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!