语音生成技术取得了显著进步,但大多数开源文本转语音(TTS)模型仍在一个基本权衡中挣扎:质量与语言覆盖率之间的取舍。由阿里巴巴 FunAudioLLM 团队开发的 CosyVoice 打破了这一障碍,在 9 种语言与 18 种以上中文方言中提供生产级质量的语音生成。
凭借超过 20,000 个 GitHub 星标,CosyVoice 已成为开发者与研究人员的首选解决方案,他们需要具备零样本语音克隆、情绪控制与指令跟随生成等先进能力的多语言语音合成。与按字符收费并限制自定义的商业 TTS API 不同,CosyVoice 是完全开源且可自托管的。
该模型的架构基于一种新颖的方法,将内容、说话者与风格信息分离到不同的潜在空间中,从而实现对生成语音前所未有的控制。这种设计允许用户混合搭配声音、语言与说话风格,而这些以前需要大量的微调或单独的模型。
CosyVoice 的语音克隆如何工作?
CosyVoice 的零样本语音克隆是其最令人印象深刻的能力之一。它可以在没有任何微调或训练的情况下,从仅 3 到 10 秒的音频中复制说话者的声音。
flowchart TD
A["参考音频\n3-10 秒"] --> B["语音编码器\n提取说话者嵌入"]
B --> C["说话者身份\n潜在表示"]
D["目标文本\n'你好,这是你的声音'"] --> E["内容编码器"]
E --> F["内容表示"]
C --> G["交叉注意力\n融合层"]
F --> G
G --> H["流匹配\n解码器"]
H --> I["🎤 生成的语音\n以参考声音发出"]
style A fill:#1e1040,color:#ceb9ff
style B fill:#0c3a3d,color:#8ff5ff
style C fill:#1d2634,color:#a5abb8
style D fill:#1e1040,color:#ceb9ff
style E fill:#0c3a3d,color:#8ff5ff
style G fill:#1d2634,color:#a5abb8
style I fill:#0c3a3d,color:#8ff5ff语音编码器从参考音频中提取紧凑的说话者嵌入,捕捉音色、音高范围、口音与说话节奏。然后通过交叉注意力机制将此嵌入与目标文本内容结合,使解码器能够生成同时匹配语音与内容的语音。
语音克隆质量比较
| 参考音频长度 | 克隆质量 | 伪影 | 使用案例 |
|---|---|---|---|
| 3 秒 | 一般(捕捉基本音色) | 些许机器感 | 快速演示 |
| 10 秒 | 良好(捕捉口音与节奏) | 微小伪影 | 一般使用 |
| 30 秒 | 很好(捕捉说话风格) | 罕见伪影 | 可接受的生产质量 |
| 60+ 秒 | 优秀(近乎完美的克隆) | 极少伪影 | 高质量生产 |
CosyVoice 支持哪些语言与方言?
CosyVoice 的语言覆盖率对于开源 TTS 模型来说非常出色,特别是对中文方言的支持。
| 语言 | 本地名称 | 支持质量 |
|---|---|---|
| 普通话 | 普通话 | 优秀(原生) |
| 英语 | English | 优秀 |
| 日语 | 日本語 | 很好 |
| 韩语 | 한국어 | 很好 |
| 粤语 | 粤語 | 很好 |
| 法语 | Francais | 良好 |
| 西班牙语 | Espanol | 良好 |
| 俄语 | Русский | 良好 |
| 阿拉伯语 | العربية | 良好 |
除了这 9 种语言之外,CosyVoice 还支持 18 种以上的中文方言,包括上海话、四川话、闽南语(台湾话)、客家话、潮州话等。这使其对于区域应用与保护语言多样性具有独特价值。
指令模式:控制情绪与风格
flowchart LR
A["用户指令\n'用高音调\n兴奋地说这个'"] --> B["指令编码器"]
B --> C["风格嵌入"]
D["要说的文本"] --> E["内容编码器"]
E --> F[融合]
C --> F
F --> G["🎤 带有指定\n情绪的语音"]
H["支持的\n参数:"] --> I["速度: 0.5x - 2.0x"]
H --> J["音高: 低, 中, 高"]
H --> K["情绪: 快乐, 悲伤,\n兴奋, 平静, 生气"]
H --> L["强调: 词级\n重音控制"]
style A fill:#1e1040,color:#ceb9ff
style C fill:#0c3a3d,color:#8ff5ff
style G fill:#0c3a3d,color:#8ff5ff
style H fill:#1d2634,color:#a5abb8指令模式让用户以自然语言描述所需的说话风格,使 CosyVoice 的表达能力远超传统 TTS 系统,后者需要复杂的 SSML 标签或每种变化的参考音频。
CosyVoice 的硬件需求与部署选项是什么?
CosyVoice 可以在消费级硬件上运行,尽管性能会根据可用的 GPU 计算能力而有显著差异。
| 配置 | 所需 VRAM | 推理速度 | 质量 |
|---|---|---|---|
| 基础模型(CPU) | 无 | 0.5-1 倍实时 | 良好 |
| 基础模型(6GB GPU) | 6 GB | 2-4 倍实时 | 良好 |
| 完整模型(12GB GPU) | 12 GB | 4-8 倍实时 | 很好 |
| 完整模型(24GB GPU) | 24 GB | 8-15 倍实时 | 优秀 |
| 流模式 | 4 GB | <500ms 延迟 | 良好 |
该模型可以部署为 Python 库、网页 API(通过 FastAPI 或 Gradio),或集成到更大的应用中。对于生产用途,24GB GPU(RTX 3090/4090)上的完整模型提供了质量与速度的最佳平衡。
FAQ
什么是 CosyVoice? CosyVoice 是阿里巴巴 FunAudioLLM 团队开发的开源多语言语音生成模型。它支持文本转语音(TTS)、零样本语音克隆与情绪可控的语音合成,涵盖 9 种语言与 18 种以上中文方言。该项目在 GitHub 上拥有超过 20,000 个星标。
CosyVoice 支持哪些语言? CosyVoice 支持 9 种语言:普通话、英语、日语、韩语、法语、西班牙语、俄语、阿拉伯语与粤语。此外,还支持超过 18 种中文方言,包括上海话、四川话、闽南语与客家话。
CosyVoice 的零样本语音克隆如何工作? CosyVoice 的零样本语音克隆可以仅凭 3-10 秒的音频样本复制说话者的声音,无需任何微调。它分析样本中的语音特征,并生成相同声音的新语音。
什么是 CosyVoice 的指令模式? CosyVoice 的指令模式允许用户通过自然语言指令控制生成语音的说话风格与情绪。您可以直接在文本提示中指定速度、音高、强调与情绪语气等参数,无需参考音频。
运行 CosyVoice 的硬件需求是什么? CosyVoice 需要至少 6GB VRAM 的 GPU 来运行基础模型,完整模型需要 12GB+。建议使用支持 CUDA 的 NVIDIA GPU。
延伸阅读
- CosyVoice GitHub 仓库 – 源代码、模型权重与文档
- FunAudioLLM 组织 – 阿里巴巴在 GitHub 上的音频与语音研究
- Hugging Face CosyVoice 模型 – 预训练模型权重与推理笔记本
- 零样本语音克隆调查 – 语音克隆技术的学术调查
- 阿里云 ModelScope – 中国模型托管平台,附 CosyVoice 演示
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!