AI

CosyVoice:阿里巴巴的开源多语言语音生成模型,拥有 20K 星标

CosyVoice 是阿里巴巴开发的开源多语言语音生成模型,拥有 20K 星标,支持 9 种语言与 18 种以上中文方言,具备零样本语音克隆功能。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
CosyVoice:阿里巴巴的开源多语言语音生成模型,拥有 20K 星标

语音生成技术取得了显著进步,但大多数开源文本转语音(TTS)模型仍在一个基本权衡中挣扎:质量与语言覆盖率之间的取舍。由阿里巴巴 FunAudioLLM 团队开发的 CosyVoice 打破了这一障碍,在 9 种语言与 18 种以上中文方言中提供生产级质量的语音生成。

凭借超过 20,000 个 GitHub 星标,CosyVoice 已成为开发者与研究人员的首选解决方案,他们需要具备零样本语音克隆、情绪控制与指令跟随生成等先进能力的多语言语音合成。与按字符收费并限制自定义的商业 TTS API 不同,CosyVoice 是完全开源且可自托管的。

该模型的架构基于一种新颖的方法,将内容、说话者与风格信息分离到不同的潜在空间中,从而实现对生成语音前所未有的控制。这种设计允许用户混合搭配声音、语言与说话风格,而这些以前需要大量的微调或单独的模型。


CosyVoice 的语音克隆如何工作?

CosyVoice 的零样本语音克隆是其最令人印象深刻的能力之一。它可以在没有任何微调或训练的情况下,从仅 3 到 10 秒的音频中复制说话者的声音。

语音编码器从参考音频中提取紧凑的说话者嵌入,捕捉音色、音高范围、口音与说话节奏。然后通过交叉注意力机制将此嵌入与目标文本内容结合,使解码器能够生成同时匹配语音与内容的语音。

语音克隆质量比较

参考音频长度克隆质量伪影使用案例
3 秒一般(捕捉基本音色)些许机器感快速演示
10 秒良好(捕捉口音与节奏)微小伪影一般使用
30 秒很好(捕捉说话风格)罕见伪影可接受的生产质量
60+ 秒优秀(近乎完美的克隆)极少伪影高质量生产

CosyVoice 支持哪些语言与方言?

CosyVoice 的语言覆盖率对于开源 TTS 模型来说非常出色,特别是对中文方言的支持。

语言本地名称支持质量
普通话普通话优秀(原生)
英语English优秀
日语日本語很好
韩语한국어很好
粤语粤語很好
法语Francais良好
西班牙语Espanol良好
俄语Русский良好
阿拉伯语العربية良好

除了这 9 种语言之外,CosyVoice 还支持 18 种以上的中文方言,包括上海话、四川话、闽南语(台湾话)、客家话、潮州话等。这使其对于区域应用与保护语言多样性具有独特价值。

指令模式:控制情绪与风格

指令模式让用户以自然语言描述所需的说话风格,使 CosyVoice 的表达能力远超传统 TTS 系统,后者需要复杂的 SSML 标签或每种变化的参考音频。


CosyVoice 的硬件需求与部署选项是什么?

CosyVoice 可以在消费级硬件上运行,尽管性能会根据可用的 GPU 计算能力而有显著差异。

配置所需 VRAM推理速度质量
基础模型(CPU)0.5-1 倍实时良好
基础模型(6GB GPU)6 GB2-4 倍实时良好
完整模型(12GB GPU)12 GB4-8 倍实时很好
完整模型(24GB GPU)24 GB8-15 倍实时优秀
流模式4 GB<500ms 延迟良好

该模型可以部署为 Python 库、网页 API(通过 FastAPI 或 Gradio),或集成到更大的应用中。对于生产用途,24GB GPU(RTX 3090/4090)上的完整模型提供了质量与速度的最佳平衡。


FAQ

什么是 CosyVoice? CosyVoice 是阿里巴巴 FunAudioLLM 团队开发的开源多语言语音生成模型。它支持文本转语音(TTS)、零样本语音克隆与情绪可控的语音合成,涵盖 9 种语言与 18 种以上中文方言。该项目在 GitHub 上拥有超过 20,000 个星标。

CosyVoice 支持哪些语言? CosyVoice 支持 9 种语言:普通话、英语、日语、韩语、法语、西班牙语、俄语、阿拉伯语与粤语。此外,还支持超过 18 种中文方言,包括上海话、四川话、闽南语与客家话。

CosyVoice 的零样本语音克隆如何工作? CosyVoice 的零样本语音克隆可以仅凭 3-10 秒的音频样本复制说话者的声音,无需任何微调。它分析样本中的语音特征,并生成相同声音的新语音。

什么是 CosyVoice 的指令模式? CosyVoice 的指令模式允许用户通过自然语言指令控制生成语音的说话风格与情绪。您可以直接在文本提示中指定速度、音高、强调与情绪语气等参数,无需参考音频。

运行 CosyVoice 的硬件需求是什么? CosyVoice 需要至少 6GB VRAM 的 GPU 来运行基础模型,完整模型需要 12GB+。建议使用支持 CUDA 的 NVIDIA GPU。


延伸阅读

TAG
CATEGORIES