VoxCPM2 是由 OpenBMB 开发的免分词器文本转语音 (TTS) 模型;OpenBMB 是隶属于清华大学与北京人工智能研究院 (BAAI) 的开源 AI 研究社区。VoxCPM2 拥有 20 亿个参数,直接在连续语音表征上运作,跳脱传统需要离散音频分词器的框架,避免音质下降。
该模型支持超过 30 种语言,具备零样本语音克隆、语音设计(从文字描述创造全新声音)以及实时流式推理能力。VoxCPM2 已迅速成为 2026 年最受瞩目的开源 TTS 模型之一,在 Apache 2.0 许可下免费提供,直接与 ElevenLabs 和 OpenAI TTS 等商业服务竞争。
VoxCPM2 与传统 TTS 模型有何不同?
传统 TTS 流程依赖串联式系统:文本转换为语言特征、再转为离散音频 token、最后产生波形。每个阶段都会引入压缩失真与信息丢失。VoxCPM2 的免分词器架构直接使用流匹配扩散骨干处理连续语音表征,保留自然语言的完整丰富性,包括韵律、情感与说话者身份。
模型版本与规格
| 模型变体 | 参数量 | 语言 | 关键特色 |
|---|---|---|---|
| VoxCPM2-Base | 2B | 30+ | 完整多语种 TTS |
| VoxCPM2-VoiceDesign | 2B | 30+ | 文本提示语音创作 |
| VoxCPM2-Streaming | 2B | 30+ | 实时流式输出 |
| VoxCPM2-Light | ~600M | 10 | 轻量边缘部署 |
语音设计:从文本描述创造声音
VoxCPM2 最具创新性的功能之一是语音设计。用户不需要提供参考音频样本,而是可以用自然语言描述想要的声音。例如,「一个温暖、权威、带有轻微英国口音的男声」即可按需求产生匹配的声音。此功能可与 ElevenLabs 和 Play.ht 的商业服务匹敌,但完全在本地运行,无需 API 费用。
flowchart LR
A[文本提示] --> B[语音编码器]
B --> C[潜在空间]
D[说话者描述] --> E[设计编码器]
E --> C
C --> F[流匹配解码器]
F --> G[波形输出]支持的语言与表现
| 语系 | 语言 | 品质评级 |
|---|---|---|
| 印欧语系 | 英语、西班牙语、法语、德语、葡萄牙语、意大利语、俄语、印地语、乌尔都语、孟加拉语 | 优秀 |
| 汉藏语系 | 中文、粤语、藏语、缅甸语 | 优秀 |
| 日韩语系 | 日语、韩语 | 非常好 |
| 南岛语系 | 印尼语、马来语、他加禄语、越南语 | 非常好 |
| 亚非语系 | 阿拉伯语、希伯来语、阿姆哈拉语 | 良好 |
| 突厥语系 | 土耳其语、乌兹别克语、哈萨克语、阿塞拜疆语 | 良好 |
运行 VoxCPM2 的硬件需求
| 配置 | GPU 内存 | 推理速度(实时因子) |
|---|---|---|
| 最低 | 8 GB VRAM | ~0.3 RTF |
| 建议 | 16 GB VRAM | ~0.15 RTF |
| 实时流式 | 24 GB VRAM | ~0.05 RTF(低于 100ms 延迟) |
| CPU(ONNX) | 32 GB RAM | ~0.8 RTF |
该模型可在 NVIDIA RTX 4090 等消费级 GPU 上高效运行,通过 bitsandbytes 量化可减少 40-50% 的内存需求,且质量损失极小。
VoxCPM2 的零样本语音克隆如何运作?
零样本克隆需要 3-10 秒的参考音频片段。VoxCPM2 从参考音频中提取说话者嵌入向量,并条件化流匹配解码器,产生与参考语音匹配的语音。此过程无需微调或额外训练,非常适合有声书旁白、内容本地化与个性化语音助手等应用。
VoxCPM2 能否实时运行?
可以。VoxCPM2 支持流式推理,在现代 GPU 上延迟低于 100 毫秒。模型使用延迟并行解码策略,以重叠区块产生语音,让第一个音频片段在完整语句生成前就开始播放。这使其适用于实时语音助手、实时翻译与交互式对话系统。
sequenceDiagram
participant User as 用户
participant Model as VoxCPM2
participant Speaker as 说话者编码器
participant Audio as 音频输出
User->>Model: 提供文本 + 参考音频
Model->>Speaker: 提取说话者嵌入
Speaker-->>Model: 说话者向量
Note over Model: 生成区块 1
Model->>Audio: 流式传输区块 1(50ms 延迟)
Note over Model: 生成区块 2(并行)
Model->>Audio: 流式传输区块 2
Note over Model: 持续直到完成
Audio-->>User: 完整语音输出采用什么许可?如何使用?
VoxCPM2 采用 Apache 2.0 许可,允许免费用于商业与研究用途。模型权重托管于 Hugging Face。团队提供 Gradio 网页界面便于实验,以及 Python API 供程序化使用。安装需要 Python 3.10+ 与 PyTorch 2.0+。
常见问题
什么是 VoxCPM? VoxCPM2 是由 OpenBMB 开发的免分词器 TTS 模型,使用连续语音表征在 30 多种语言中生成自然语音。
有哪些模型版本可用? 项目提供 VoxCPM2-Base(2B,多语种)、VoxCPM2-Light(600M,10 种语言)、VoxCPM2-VoiceDesign(文本转语音)以及 VoxCPM2-Streaming(实时)。
语音设计如何运作? 用户用自然语言描述想要的声音(例如「温柔、带有南方口音的女声」),模型便无需参考音频即可产生符合该描述的语音。
支持哪些语言? 超过 30 种语言,包括英语、中文、日语、韩语、西班牙语、法语、德语、阿拉伯语、印地语等。
硬件需求为何? 推理最低 8 GB VRAM,建议 16 GB 以获得最佳品质,实时流式需要 24 GB。通过 ONNX 导出可使用 CPU 推理。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!