VoxCPM2：OpenBMB 免分詞器多語音合成模型

VoxCPM2 是由 OpenBMB 開發的 2B 參數免分詞器 TTS 模型，支援 30 種語言，具備語音設計、語音複製與即時串流功能。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 03, 2026 閱讀 9 分鐘

VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型；OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數，直接在連續語音表徵上運作，跳脫傳統需要離散音訊分詞器的框架，避免音質下降。

該模型支援超過 30 種語言，具備零樣本語音複製、語音設計（從文字描述創造全新聲音）以及即時串流推論能力。VoxCPM2 已迅速成為 2026 年最受矚目的開源 TTS 模型之一，在 Apache 2.0 授權下免費提供，直接與 ElevenLabs 和 OpenAI TTS 等商業服務競爭。

VoxCPM2 與傳統 TTS 模型有何不同？

傳統 TTS 流程依賴串聯式系統：文字轉換為語言特徵、再轉為離散音訊 token、最後產生波形。每個階段都會引入壓縮失真與資訊遺失。VoxCPM2 的免分詞器架構直接使用流匹配擴散骨幹處理連續語音表徵，保留自然語言的完整豐富性，包括韻律、情感與說話者身份。

模型版本與規格

模型變體	參數量	語言	關鍵特色
VoxCPM2-Base	2B	30+	完整多語系 TTS
VoxCPM2-VoiceDesign	2B	30+	文字提示語音創作
VoxCPM2-Streaming	2B	30+	即時串流輸出
VoxCPM2-Light	~600M	10	輕量邊緣部署

語音設計：從文字描述創造聲音

VoxCPM2 最具創新性的功能之一是語音設計。使用者不需要提供參考音訊樣本，而是可以用自然語言描述想要的聲音。例如，「一個溫暖、權威、帶有輕微英國口音的男聲」即可按需求產生匹配的聲音。此功能可與 ElevenLabs 和 Play.ht 的商業服務匹敵，但完全在本地運行，無需 API 費用。

flowchart LR
    A[文字提示] --> B[語音編碼器]
    B --> C[潛在空間]
    D[說話者描述] --> E[設計編碼器]
    E --> C
    C --> F[流匹配解碼器]
    F --> G[波形輸出]

支援的語言與表現

語系	語言	品質評級
印歐語系	英語、西班牙語、法語、德語、葡萄牙語、義大利語、俄語、印地語、烏爾都語、孟加拉語	優秀
漢藏語系	中文、粵語、藏語、緬甸語	優秀
日韓語系	日語、韓語	非常好
南島語系	印尼語、馬來語、他加祿語、越南語	非常好
亞非語系	阿拉伯語、希伯來語、阿姆哈拉語	良好
突厥語系	土耳其語、烏茲別克語、哈薩克語、亞塞拜然語	良好

運行 VoxCPM2 的硬體需求

配置	GPU 記憶體	推論速度（即時因子）
最低	8 GB VRAM	~0.3 RTF
建議	16 GB VRAM	~0.15 RTF
即時串流	24 GB VRAM	~0.05 RTF（低於 100ms 延遲）
CPU（ONNX）	32 GB RAM	~0.8 RTF

該模型可在 NVIDIA RTX 4090 等消費級 GPU 上高效運行，透過 bitsandbytes 量化可減少 40-50% 的記憶體需求，且品質損失極小。

VoxCPM2 的零樣本語音複製如何運作？

零樣本複製需要 3-10 秒的參考音訊片段。VoxCPM2 從參考音訊中提取說話者嵌入向量，並條件化流匹配解碼器，產生與參考語音匹配的語音。此過程無需微調或額外訓練，非常適合有聲書旁白、內容本地化與個人化語音助理等應用。

VoxCPM2 能否即時運行？

可以。VoxCPM2 支援串流推論，在現代 GPU 上延遲低於 100 毫秒。模型使用延遲並行解碼策略，以重疊區塊產生語音，讓第一個音訊片段在完整語句生成前就開始播放。這使其適用於即時語音助理、即時翻譯與互動式對話系統。

sequenceDiagram
    participant User as 使用者
    participant Model as VoxCPM2
    participant Speaker as 說話者編碼器
    participant Audio as 音訊輸出

    User->>Model: 提供文字 + 參考音訊
    Model->>Speaker: 提取說話者嵌入
    Speaker-->>Model: 說話者向量
    Note over Model: 生成區塊 1
    Model->>Audio: 串流區塊 1（50ms 延遲）
    Note over Model: 生成區塊 2（並行）
    Model->>Audio: 串流區塊 2
    Note over Model: 持續直到完成
    Audio-->>User: 完整語音輸出

採用什麼授權？如何使用？

VoxCPM2 採用 Apache 2.0 授權，允許免費用於商業與研究用途。模型權重託管於 Hugging Face。團隊提供 Gradio 網頁介面便於實驗，以及 Python API 供程式化使用。安裝需要 Python 3.10+ 與 PyTorch 2.0+。

常見問題

什麼是 VoxCPM？ VoxCPM2 是由 OpenBMB 開發的免分詞器 TTS 模型，使用連續語音表徵在 30 多種語言中生成自然語音。

有哪些模型版本可用？ 專案提供 VoxCPM2-Base（2B，多語系）、VoxCPM2-Light（600M，10 種語言）、VoxCPM2-VoiceDesign（文字轉語音）以及 VoxCPM2-Streaming（即時）。

語音設計如何運作？ 使用者用自然語言描述想要的聲音（例如「溫柔、帶有南部口音的女聲」），模型便無需參考音訊即可產生符合該描述的語音。

支援哪些語言？ 超過 30 種語言，包括英語、中文、日語、韓語、西班牙語、法語、德語、阿拉伯語、印地語等。

硬體需求為何？ 推論最低 8 GB VRAM，建議 16 GB 以獲得最佳品質，即時串流需要 24 GB。透過 ONNX 匯出可使用 CPU 推論。

VoxCPM2：OpenBMB 免分詞器多語音合成模型

VoxCPM2 與傳統 TTS 模型有何不同？

模型版本與規格

語音設計：從文字描述創造聲音

支援的語言與表現

運行 VoxCPM2 的硬體需求

VoxCPM2 的零樣本語音複製如何運作？

VoxCPM2 能否即時運行？

採用什麼授權？如何使用？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

VoxCPM2：OpenBMB 免分詞器多語音合成模型

VoxCPM2 與傳統 TTS 模型有何不同？

模型版本與規格

語音設計：從文字描述創造聲音

支援的語言與表現

運行 VoxCPM2 的硬體需求

VoxCPM2 的零樣本語音複製如何運作？

VoxCPM2 能否即時運行？

採用什麼授權？如何使用？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲 凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險