AI

VoxCPM2:OpenBMB 免分詞器多語音合成模型

VoxCPM2 是由 OpenBMB 開發的 2B 參數免分詞器 TTS 模型,支援 30 種語言,具備語音設計、語音複製與即時串流功能。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
VoxCPM2:OpenBMB 免分詞器多語音合成模型

VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型;OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數,直接在連續語音表徵上運作,跳脫傳統需要離散音訊分詞器的框架,避免音質下降。

該模型支援超過 30 種語言,具備零樣本語音複製、語音設計(從文字描述創造全新聲音)以及即時串流推論能力。VoxCPM2 已迅速成為 2026 年最受矚目的開源 TTS 模型之一,在 Apache 2.0 授權下免費提供,直接與 ElevenLabs 和 OpenAI TTS 等商業服務競爭。

VoxCPM2 與傳統 TTS 模型有何不同?

傳統 TTS 流程依賴串聯式系統:文字轉換為語言特徵、再轉為離散音訊 token、最後產生波形。每個階段都會引入壓縮失真與資訊遺失。VoxCPM2 的免分詞器架構直接使用流匹配擴散骨幹處理連續語音表徵,保留自然語言的完整豐富性,包括韻律、情感與說話者身份。

模型版本與規格

模型變體參數量語言關鍵特色
VoxCPM2-Base2B30+完整多語系 TTS
VoxCPM2-VoiceDesign2B30+文字提示語音創作
VoxCPM2-Streaming2B30+即時串流輸出
VoxCPM2-Light~600M10輕量邊緣部署

語音設計:從文字描述創造聲音

VoxCPM2 最具創新性的功能之一是語音設計。使用者不需要提供參考音訊樣本,而是可以用自然語言描述想要的聲音。例如,「一個溫暖、權威、帶有輕微英國口音的男聲」即可按需求產生匹配的聲音。此功能可與 ElevenLabs 和 Play.ht 的商業服務匹敵,但完全在本地運行,無需 API 費用。

支援的語言與表現

語系語言品質評級
印歐語系英語、西班牙語、法語、德語、葡萄牙語、義大利語、俄語、印地語、烏爾都語、孟加拉語優秀
漢藏語系中文、粵語、藏語、緬甸語優秀
日韓語系日語、韓語非常好
南島語系印尼語、馬來語、他加祿語、越南語非常好
亞非語系阿拉伯語、希伯來語、阿姆哈拉語良好
突厥語系土耳其語、烏茲別克語、哈薩克語、亞塞拜然語良好

運行 VoxCPM2 的硬體需求

配置GPU 記憶體推論速度(即時因子)
最低8 GB VRAM~0.3 RTF
建議16 GB VRAM~0.15 RTF
即時串流24 GB VRAM~0.05 RTF(低於 100ms 延遲)
CPU(ONNX)32 GB RAM~0.8 RTF

該模型可在 NVIDIA RTX 4090 等消費級 GPU 上高效運行,透過 bitsandbytes 量化可減少 40-50% 的記憶體需求,且品質損失極小。

VoxCPM2 的零樣本語音複製如何運作?

零樣本複製需要 3-10 秒的參考音訊片段。VoxCPM2 從參考音訊中提取說話者嵌入向量,並條件化流匹配解碼器,產生與參考語音匹配的語音。此過程無需微調或額外訓練,非常適合有聲書旁白、內容本地化與個人化語音助理等應用。

VoxCPM2 能否即時運行?

可以。VoxCPM2 支援串流推論,在現代 GPU 上延遲低於 100 毫秒。模型使用延遲並行解碼策略,以重疊區塊產生語音,讓第一個音訊片段在完整語句生成前就開始播放。這使其適用於即時語音助理、即時翻譯與互動式對話系統。

採用什麼授權?如何使用?

VoxCPM2 採用 Apache 2.0 授權,允許免費用於商業與研究用途。模型權重託管於 Hugging Face。團隊提供 Gradio 網頁介面便於實驗,以及 Python API 供程式化使用。安裝需要 Python 3.10+ 與 PyTorch 2.0+。

常見問題

什麼是 VoxCPM? VoxCPM2 是由 OpenBMB 開發的免分詞器 TTS 模型,使用連續語音表徵在 30 多種語言中生成自然語音。

有哪些模型版本可用? 專案提供 VoxCPM2-Base(2B,多語系)、VoxCPM2-Light(600M,10 種語言)、VoxCPM2-VoiceDesign(文字轉語音)以及 VoxCPM2-Streaming(即時)。

語音設計如何運作? 使用者用自然語言描述想要的聲音(例如「溫柔、帶有南部口音的女聲」),模型便無需參考音訊即可產生符合該描述的語音。

支援哪些語言? 超過 30 種語言,包括英語、中文、日語、韓語、西班牙語、法語、德語、阿拉伯語、印地語等。

硬體需求為何? 推論最低 8 GB VRAM,建議 16 GB 以獲得最佳品質,即時串流需要 24 GB。透過 ONNX 匯出可使用 CPU 推論。

延伸閱讀

TAG