AI

VoxCPM2:OpenBMB 免分词器多语言语音合成模型

VoxCPM2 是由 OpenBMB 开发的 2B 参数免分词器 TTS 模型,支持 30 种语言,具备语音设计、语音克隆与实时流式传输功能。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
VoxCPM2:OpenBMB 免分词器多语言语音合成模型

VoxCPM2 是由 OpenBMB 开发的免分词器文本转语音 (TTS) 模型;OpenBMB 是隶属于清华大学与北京人工智能研究院 (BAAI) 的开源 AI 研究社区。VoxCPM2 拥有 20 亿个参数,直接在连续语音表征上运作,跳脱传统需要离散音频分词器的框架,避免音质下降。

该模型支持超过 30 种语言,具备零样本语音克隆、语音设计(从文字描述创造全新声音)以及实时流式推理能力。VoxCPM2 已迅速成为 2026 年最受瞩目的开源 TTS 模型之一,在 Apache 2.0 许可下免费提供,直接与 ElevenLabs 和 OpenAI TTS 等商业服务竞争。

VoxCPM2 与传统 TTS 模型有何不同?

传统 TTS 流程依赖串联式系统:文本转换为语言特征、再转为离散音频 token、最后产生波形。每个阶段都会引入压缩失真与信息丢失。VoxCPM2 的免分词器架构直接使用流匹配扩散骨干处理连续语音表征,保留自然语言的完整丰富性,包括韵律、情感与说话者身份。

模型版本与规格

模型变体参数量语言关键特色
VoxCPM2-Base2B30+完整多语种 TTS
VoxCPM2-VoiceDesign2B30+文本提示语音创作
VoxCPM2-Streaming2B30+实时流式输出
VoxCPM2-Light~600M10轻量边缘部署

语音设计:从文本描述创造声音

VoxCPM2 最具创新性的功能之一是语音设计。用户不需要提供参考音频样本,而是可以用自然语言描述想要的声音。例如,「一个温暖、权威、带有轻微英国口音的男声」即可按需求产生匹配的声音。此功能可与 ElevenLabs 和 Play.ht 的商业服务匹敌,但完全在本地运行,无需 API 费用。

支持的语言与表现

语系语言品质评级
印欧语系英语、西班牙语、法语、德语、葡萄牙语、意大利语、俄语、印地语、乌尔都语、孟加拉语优秀
汉藏语系中文、粤语、藏语、缅甸语优秀
日韩语系日语、韩语非常好
南岛语系印尼语、马来语、他加禄语、越南语非常好
亚非语系阿拉伯语、希伯来语、阿姆哈拉语良好
突厥语系土耳其语、乌兹别克语、哈萨克语、阿塞拜疆语良好

运行 VoxCPM2 的硬件需求

配置GPU 内存推理速度(实时因子)
最低8 GB VRAM~0.3 RTF
建议16 GB VRAM~0.15 RTF
实时流式24 GB VRAM~0.05 RTF(低于 100ms 延迟)
CPU(ONNX)32 GB RAM~0.8 RTF

该模型可在 NVIDIA RTX 4090 等消费级 GPU 上高效运行,通过 bitsandbytes 量化可减少 40-50% 的内存需求,且质量损失极小。

VoxCPM2 的零样本语音克隆如何运作?

零样本克隆需要 3-10 秒的参考音频片段。VoxCPM2 从参考音频中提取说话者嵌入向量,并条件化流匹配解码器,产生与参考语音匹配的语音。此过程无需微调或额外训练,非常适合有声书旁白、内容本地化与个性化语音助手等应用。

VoxCPM2 能否实时运行?

可以。VoxCPM2 支持流式推理,在现代 GPU 上延迟低于 100 毫秒。模型使用延迟并行解码策略,以重叠区块产生语音,让第一个音频片段在完整语句生成前就开始播放。这使其适用于实时语音助手、实时翻译与交互式对话系统。

采用什么许可?如何使用?

VoxCPM2 采用 Apache 2.0 许可,允许免费用于商业与研究用途。模型权重托管于 Hugging Face。团队提供 Gradio 网页界面便于实验,以及 Python API 供程序化使用。安装需要 Python 3.10+ 与 PyTorch 2.0+。

常见问题

什么是 VoxCPM? VoxCPM2 是由 OpenBMB 开发的免分词器 TTS 模型,使用连续语音表征在 30 多种语言中生成自然语音。

有哪些模型版本可用? 项目提供 VoxCPM2-Base(2B,多语种)、VoxCPM2-Light(600M,10 种语言)、VoxCPM2-VoiceDesign(文本转语音)以及 VoxCPM2-Streaming(实时)。

语音设计如何运作? 用户用自然语言描述想要的声音(例如「温柔、带有南方口音的女声」),模型便无需参考音频即可产生符合该描述的语音。

支持哪些语言? 超过 30 种语言,包括英语、中文、日语、韩语、西班牙语、法语、德语、阿拉伯语、印地语等。

硬件需求为何? 推理最低 8 GB VRAM,建议 16 GB 以获得最佳品质,实时流式需要 24 GB。通过 ONNX 导出可使用 CPU 推理。

延伸阅读

TAG
CATEGORIES