VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型;OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數,直接在連續語音表徵上運作,跳脫傳統需要離散音訊分詞器的框架,避免音質下降。
該模型支援超過 30 種語言,具備零樣本語音複製、語音設計(從文字描述創造全新聲音)以及即時串流推論能力。VoxCPM2 已迅速成為 2026 年最受矚目的開源 TTS 模型之一,在 Apache 2.0 授權下免費提供,直接與 ElevenLabs 和 OpenAI TTS 等商業服務競爭。
VoxCPM2 與傳統 TTS 模型有何不同?
傳統 TTS 流程依賴串聯式系統:文字轉換為語言特徵、再轉為離散音訊 token、最後產生波形。每個階段都會引入壓縮失真與資訊遺失。VoxCPM2 的免分詞器架構直接使用流匹配擴散骨幹處理連續語音表徵,保留自然語言的完整豐富性,包括韻律、情感與說話者身份。
模型版本與規格
| 模型變體 | 參數量 | 語言 | 關鍵特色 |
|---|---|---|---|
| VoxCPM2-Base | 2B | 30+ | 完整多語系 TTS |
| VoxCPM2-VoiceDesign | 2B | 30+ | 文字提示語音創作 |
| VoxCPM2-Streaming | 2B | 30+ | 即時串流輸出 |
| VoxCPM2-Light | ~600M | 10 | 輕量邊緣部署 |
語音設計:從文字描述創造聲音
VoxCPM2 最具創新性的功能之一是語音設計。使用者不需要提供參考音訊樣本,而是可以用自然語言描述想要的聲音。例如,「一個溫暖、權威、帶有輕微英國口音的男聲」即可按需求產生匹配的聲音。此功能可與 ElevenLabs 和 Play.ht 的商業服務匹敵,但完全在本地運行,無需 API 費用。
flowchart LR
A[文字提示] --> B[語音編碼器]
B --> C[潛在空間]
D[說話者描述] --> E[設計編碼器]
E --> C
C --> F[流匹配解碼器]
F --> G[波形輸出]支援的語言與表現
| 語系 | 語言 | 品質評級 |
|---|---|---|
| 印歐語系 | 英語、西班牙語、法語、德語、葡萄牙語、義大利語、俄語、印地語、烏爾都語、孟加拉語 | 優秀 |
| 漢藏語系 | 中文、粵語、藏語、緬甸語 | 優秀 |
| 日韓語系 | 日語、韓語 | 非常好 |
| 南島語系 | 印尼語、馬來語、他加祿語、越南語 | 非常好 |
| 亞非語系 | 阿拉伯語、希伯來語、阿姆哈拉語 | 良好 |
| 突厥語系 | 土耳其語、烏茲別克語、哈薩克語、亞塞拜然語 | 良好 |
運行 VoxCPM2 的硬體需求
| 配置 | GPU 記憶體 | 推論速度(即時因子) |
|---|---|---|
| 最低 | 8 GB VRAM | ~0.3 RTF |
| 建議 | 16 GB VRAM | ~0.15 RTF |
| 即時串流 | 24 GB VRAM | ~0.05 RTF(低於 100ms 延遲) |
| CPU(ONNX) | 32 GB RAM | ~0.8 RTF |
該模型可在 NVIDIA RTX 4090 等消費級 GPU 上高效運行,透過 bitsandbytes 量化可減少 40-50% 的記憶體需求,且品質損失極小。
VoxCPM2 的零樣本語音複製如何運作?
零樣本複製需要 3-10 秒的參考音訊片段。VoxCPM2 從參考音訊中提取說話者嵌入向量,並條件化流匹配解碼器,產生與參考語音匹配的語音。此過程無需微調或額外訓練,非常適合有聲書旁白、內容本地化與個人化語音助理等應用。
VoxCPM2 能否即時運行?
可以。VoxCPM2 支援串流推論,在現代 GPU 上延遲低於 100 毫秒。模型使用延遲並行解碼策略,以重疊區塊產生語音,讓第一個音訊片段在完整語句生成前就開始播放。這使其適用於即時語音助理、即時翻譯與互動式對話系統。
sequenceDiagram
participant User as 使用者
participant Model as VoxCPM2
participant Speaker as 說話者編碼器
participant Audio as 音訊輸出
User->>Model: 提供文字 + 參考音訊
Model->>Speaker: 提取說話者嵌入
Speaker-->>Model: 說話者向量
Note over Model: 生成區塊 1
Model->>Audio: 串流區塊 1(50ms 延遲)
Note over Model: 生成區塊 2(並行)
Model->>Audio: 串流區塊 2
Note over Model: 持續直到完成
Audio-->>User: 完整語音輸出採用什麼授權?如何使用?
VoxCPM2 採用 Apache 2.0 授權,允許免費用於商業與研究用途。模型權重託管於 Hugging Face。團隊提供 Gradio 網頁介面便於實驗,以及 Python API 供程式化使用。安裝需要 Python 3.10+ 與 PyTorch 2.0+。
常見問題
什麼是 VoxCPM? VoxCPM2 是由 OpenBMB 開發的免分詞器 TTS 模型,使用連續語音表徵在 30 多種語言中生成自然語音。
有哪些模型版本可用? 專案提供 VoxCPM2-Base(2B,多語系)、VoxCPM2-Light(600M,10 種語言)、VoxCPM2-VoiceDesign(文字轉語音)以及 VoxCPM2-Streaming(即時)。
語音設計如何運作? 使用者用自然語言描述想要的聲音(例如「溫柔、帶有南部口音的女聲」),模型便無需參考音訊即可產生符合該描述的語音。
支援哪些語言? 超過 30 種語言,包括英語、中文、日語、韓語、西班牙語、法語、德語、阿拉伯語、印地語等。
硬體需求為何? 推論最低 8 GB VRAM,建議 16 GB 以獲得最佳品質,即時串流需要 24 GB。透過 ONNX 匯出可使用 CPU 推論。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!