VoxCPM2：OpenBMB 免分词器多语言语音合成模型

VoxCPM2 是由 OpenBMB 开发的 2B 参数免分词器 TTS 模型，支持 30 种语言，具备语音设计、语音克隆与实时流式传输功能。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 03, 2026 阅读 9 分钟

VoxCPM2 是由 OpenBMB 开发的免分词器文本转语音 (TTS) 模型；OpenBMB 是隶属于清华大学与北京人工智能研究院 (BAAI) 的开源 AI 研究社区。VoxCPM2 拥有 20 亿个参数，直接在连续语音表征上运作，跳脱传统需要离散音频分词器的框架，避免音质下降。

该模型支持超过 30 种语言，具备零样本语音克隆、语音设计（从文字描述创造全新声音）以及实时流式推理能力。VoxCPM2 已迅速成为 2026 年最受瞩目的开源 TTS 模型之一，在 Apache 2.0 许可下免费提供，直接与 ElevenLabs 和 OpenAI TTS 等商业服务竞争。

VoxCPM2 与传统 TTS 模型有何不同？

传统 TTS 流程依赖串联式系统：文本转换为语言特征、再转为离散音频 token、最后产生波形。每个阶段都会引入压缩失真与信息丢失。VoxCPM2 的免分词器架构直接使用流匹配扩散骨干处理连续语音表征，保留自然语言的完整丰富性，包括韵律、情感与说话者身份。

模型版本与规格

模型变体	参数量	语言	关键特色
VoxCPM2-Base	2B	30+	完整多语种 TTS
VoxCPM2-VoiceDesign	2B	30+	文本提示语音创作
VoxCPM2-Streaming	2B	30+	实时流式输出
VoxCPM2-Light	~600M	10	轻量边缘部署

语音设计：从文本描述创造声音

VoxCPM2 最具创新性的功能之一是语音设计。用户不需要提供参考音频样本，而是可以用自然语言描述想要的声音。例如，「一个温暖、权威、带有轻微英国口音的男声」即可按需求产生匹配的声音。此功能可与 ElevenLabs 和 Play.ht 的商业服务匹敌，但完全在本地运行，无需 API 费用。

flowchart LR
    A[文本提示] --> B[语音编码器]
    B --> C[潜在空间]
    D[说话者描述] --> E[设计编码器]
    E --> C
    C --> F[流匹配解码器]
    F --> G[波形输出]

支持的语言与表现

语系	语言	品质评级
印欧语系	英语、西班牙语、法语、德语、葡萄牙语、意大利语、俄语、印地语、乌尔都语、孟加拉语	优秀
汉藏语系	中文、粤语、藏语、缅甸语	优秀
日韩语系	日语、韩语	非常好
南岛语系	印尼语、马来语、他加禄语、越南语	非常好
亚非语系	阿拉伯语、希伯来语、阿姆哈拉语	良好
突厥语系	土耳其语、乌兹别克语、哈萨克语、阿塞拜疆语	良好

运行 VoxCPM2 的硬件需求

配置	GPU 内存	推理速度（实时因子）
最低	8 GB VRAM	~0.3 RTF
建议	16 GB VRAM	~0.15 RTF
实时流式	24 GB VRAM	~0.05 RTF（低于 100ms 延迟）
CPU（ONNX）	32 GB RAM	~0.8 RTF

该模型可在 NVIDIA RTX 4090 等消费级 GPU 上高效运行，通过 bitsandbytes 量化可减少 40-50% 的内存需求，且质量损失极小。

VoxCPM2 的零样本语音克隆如何运作？

零样本克隆需要 3-10 秒的参考音频片段。VoxCPM2 从参考音频中提取说话者嵌入向量，并条件化流匹配解码器，产生与参考语音匹配的语音。此过程无需微调或额外训练，非常适合有声书旁白、内容本地化与个性化语音助手等应用。

VoxCPM2 能否实时运行？

可以。VoxCPM2 支持流式推理，在现代 GPU 上延迟低于 100 毫秒。模型使用延迟并行解码策略，以重叠区块产生语音，让第一个音频片段在完整语句生成前就开始播放。这使其适用于实时语音助手、实时翻译与交互式对话系统。

sequenceDiagram
    participant User as 用户
    participant Model as VoxCPM2
    participant Speaker as 说话者编码器
    participant Audio as 音频输出

    User->>Model: 提供文本 + 参考音频
    Model->>Speaker: 提取说话者嵌入
    Speaker-->>Model: 说话者向量
    Note over Model: 生成区块 1
    Model->>Audio: 流式传输区块 1（50ms 延迟）
    Note over Model: 生成区块 2（并行）
    Model->>Audio: 流式传输区块 2
    Note over Model: 持续直到完成
    Audio-->>User: 完整语音输出

采用什么许可？如何使用？

VoxCPM2 采用 Apache 2.0 许可，允许免费用于商业与研究用途。模型权重托管于 Hugging Face。团队提供 Gradio 网页界面便于实验，以及 Python API 供程序化使用。安装需要 Python 3.10+ 与 PyTorch 2.0+。

常见问题

什么是 VoxCPM？ VoxCPM2 是由 OpenBMB 开发的免分词器 TTS 模型，使用连续语音表征在 30 多种语言中生成自然语音。

有哪些模型版本可用？ 项目提供 VoxCPM2-Base（2B，多语种）、VoxCPM2-Light（600M，10 种语言）、VoxCPM2-VoiceDesign（文本转语音）以及 VoxCPM2-Streaming（实时）。

语音设计如何运作？ 用户用自然语言描述想要的声音（例如「温柔、带有南方口音的女声」），模型便无需参考音频即可产生符合该描述的语音。

支持哪些语言？ 超过 30 种语言，包括英语、中文、日语、韩语、西班牙语、法语、德语、阿拉伯语、印地语等。

硬件需求为何？ 推理最低 8 GB VRAM，建议 16 GB 以获得最佳品质，实时流式需要 24 GB。通过 ONNX 导出可使用 CPU 推理。

VoxCPM2：OpenBMB 免分词器多语言语音合成模型

VoxCPM2 与传统 TTS 模型有何不同？

模型版本与规格

语音设计：从文本描述创造声音

支持的语言与表现

运行 VoxCPM2 的硬件需求

VoxCPM2 的零样本语音克隆如何运作？

VoxCPM2 能否实时运行？

采用什么许可？如何使用？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

VoxCPM2：OpenBMB 免分词器多语言语音合成模型

VoxCPM2 与传统 TTS 模型有何不同？

模型版本与规格

语音设计：从文本描述创造声音

支持的语言与表现

运行 VoxCPM2 的硬件需求

VoxCPM2 的零样本语音克隆如何运作？

VoxCPM2 能否实时运行？

采用什么许可？如何使用？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险