CosyVoice：阿里巴巴的开源多语言语音生成模型，拥有 20K 星标

Q: "什么是 CosyVoice？"

"CosyVoice 是阿里巴巴 FunAudioLLM 团队开发的开源多语言语音生成模型。它支持文本转语音（TTS）、零样本语音克隆与情绪可控的语音合成，涵盖 9 种语言与 18 种以上中文方言。该项目在 GitHub 上拥有超过 20,000 个星标。"

Q: "CosyVoice 支持哪些语言？"

"CosyVoice 支持 9 种语言：普通话、英语、日语、韩语、法语、西班牙语、俄语、阿拉伯语与粤语。此外，它还支持超过 18 种中文方言，包括上海话、四川话、闽南语与客家话，使其成为语言最多样化的开源 TTS 模型之一。"

Q: "CosyVoice 的零样本语音克隆如何工作？"

"CosyVoice 的零样本语音克隆可以仅凭 3-10 秒的音频样本复制说话者的声音，无需任何微调。它从样本中分析语音特征，并将其应用于生成相同声音的新语音。质量足以满足大多数实际应用，尽管极其独特的声音可能出现轻微伪影。"

Q: "什么是 CosyVoice 的指令模式？"

"CosyVoice 的指令模式允许用户通过自然语言指令控制生成语音的说话风格与情绪。您可以直接在文本提示中指定速度、音高、强调与情绪语气（快乐、悲伤、兴奋、平静）等参数，无需参考音频。"

Q: "运行 CosyVoice 的硬件需求是什么？"

"CosyVoice 需要至少 6GB VRAM 的 GPU 来运行基础模型，完整模型需要 12GB+。建议使用支持 CUDA 的 NVIDIA GPU。仅使用 CPU 的推理是可能的，但速度明显较慢（10-20 倍）。该模型兼容 Windows、Linux 与 macOS（在 Apple Silicon 上支持 MPS 加速）。"

CosyVoice 是阿里巴巴开发的开源多语言语音生成模型，拥有 20K 星标，支持 9 种语言与 18 种以上中文方言，具备零样本语音克隆功能。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 02, 2026 阅读 11 分钟

语音生成技术取得了显著进步，但大多数开源文本转语音（TTS）模型仍在一个基本权衡中挣扎：质量与语言覆盖率之间的取舍。由阿里巴巴 FunAudioLLM 团队开发的 CosyVoice 打破了这一障碍，在 9 种语言与 18 种以上中文方言中提供生产级质量的语音生成。

凭借超过 20,000 个 GitHub 星标，CosyVoice 已成为开发者与研究人员的首选解决方案，他们需要具备零样本语音克隆、情绪控制与指令跟随生成等先进能力的多语言语音合成。与按字符收费并限制自定义的商业 TTS API 不同，CosyVoice 是完全开源且可自托管的。

该模型的架构基于一种新颖的方法，将内容、说话者与风格信息分离到不同的潜在空间中，从而实现对生成语音前所未有的控制。这种设计允许用户混合搭配声音、语言与说话风格，而这些以前需要大量的微调或单独的模型。

CosyVoice 的语音克隆如何工作？

CosyVoice 的零样本语音克隆是其最令人印象深刻的能力之一。它可以在没有任何微调或训练的情况下，从仅 3 到 10 秒的音频中复制说话者的声音。

flowchart TD
    A["参考音频\n3-10 秒"] --> B["语音编码器\n提取说话者嵌入"]
    B --> C["说话者身份\n潜在表示"]

    D["目标文本\n'你好，这是你的声音'"] --> E["内容编码器"]
    E --> F["内容表示"]

    C --> G["交叉注意力\n融合层"]
    F --> G
    G --> H["流匹配\n解码器"]
    H --> I["🎤 生成的语音\n以参考声音发出"]

    style A fill:#1e1040,color:#ceb9ff
    style B fill:#0c3a3d,color:#8ff5ff
    style C fill:#1d2634,color:#a5abb8
    style D fill:#1e1040,color:#ceb9ff
    style E fill:#0c3a3d,color:#8ff5ff
    style G fill:#1d2634,color:#a5abb8
    style I fill:#0c3a3d,color:#8ff5ff

语音编码器从参考音频中提取紧凑的说话者嵌入，捕捉音色、音高范围、口音与说话节奏。然后通过交叉注意力机制将此嵌入与目标文本内容结合，使解码器能够生成同时匹配语音与内容的语音。

语音克隆质量比较

参考音频长度	克隆质量	伪影	使用案例
3 秒	一般（捕捉基本音色）	些许机器感	快速演示
10 秒	良好（捕捉口音与节奏）	微小伪影	一般使用
30 秒	很好（捕捉说话风格）	罕见伪影	可接受的生产质量
60+ 秒	优秀（近乎完美的克隆）	极少伪影	高质量生产

CosyVoice 支持哪些语言与方言？

CosyVoice 的语言覆盖率对于开源 TTS 模型来说非常出色，特别是对中文方言的支持。

语言	本地名称	支持质量
普通话	普通话	优秀（原生）
英语	English	优秀
日语	日本語	很好
韩语	한국어	很好
粤语	粤語	很好
法语	Francais	良好
西班牙语	Espanol	良好
俄语	Русский	良好
阿拉伯语	العربية	良好

除了这 9 种语言之外，CosyVoice 还支持 18 种以上的中文方言，包括上海话、四川话、闽南语（台湾话）、客家话、潮州话等。这使其对于区域应用与保护语言多样性具有独特价值。

指令模式：控制情绪与风格

flowchart LR
    A["用户指令\n'用高音调\n兴奋地说这个'"] --> B["指令编码器"]
    B --> C["风格嵌入"]
    D["要说的文本"] --> E["内容编码器"]
    E --> F[融合]
    C --> F
    F --> G["🎤 带有指定\n情绪的语音"]

    H["支持的\n参数:"] --> I["速度: 0.5x - 2.0x"]
    H --> J["音高: 低, 中, 高"]
    H --> K["情绪: 快乐, 悲伤,\n兴奋, 平静, 生气"]
    H --> L["强调: 词级\n重音控制"]

    style A fill:#1e1040,color:#ceb9ff
    style C fill:#0c3a3d,color:#8ff5ff
    style G fill:#0c3a3d,color:#8ff5ff
    style H fill:#1d2634,color:#a5abb8

指令模式让用户以自然语言描述所需的说话风格，使 CosyVoice 的表达能力远超传统 TTS 系统，后者需要复杂的 SSML 标签或每种变化的参考音频。

CosyVoice 的硬件需求与部署选项是什么？

CosyVoice 可以在消费级硬件上运行，尽管性能会根据可用的 GPU 计算能力而有显著差异。

配置	所需 VRAM	推理速度	质量
基础模型（CPU）	无	0.5-1 倍实时	良好
基础模型（6GB GPU）	6 GB	2-4 倍实时	良好
完整模型（12GB GPU）	12 GB	4-8 倍实时	很好
完整模型（24GB GPU）	24 GB	8-15 倍实时	优秀
流模式	4 GB	<500ms 延迟	良好

该模型可以部署为 Python 库、网页 API（通过 FastAPI 或 Gradio），或集成到更大的应用中。对于生产用途，24GB GPU（RTX 3090/4090）上的完整模型提供了质量与速度的最佳平衡。

FAQ

什么是 CosyVoice？ CosyVoice 是阿里巴巴 FunAudioLLM 团队开发的开源多语言语音生成模型。它支持文本转语音（TTS）、零样本语音克隆与情绪可控的语音合成，涵盖 9 种语言与 18 种以上中文方言。该项目在 GitHub 上拥有超过 20,000 个星标。

CosyVoice 支持哪些语言？ CosyVoice 支持 9 种语言：普通话、英语、日语、韩语、法语、西班牙语、俄语、阿拉伯语与粤语。此外，还支持超过 18 种中文方言，包括上海话、四川话、闽南语与客家话。

CosyVoice 的零样本语音克隆如何工作？ CosyVoice 的零样本语音克隆可以仅凭 3-10 秒的音频样本复制说话者的声音，无需任何微调。它分析样本中的语音特征，并生成相同声音的新语音。

什么是 CosyVoice 的指令模式？ CosyVoice 的指令模式允许用户通过自然语言指令控制生成语音的说话风格与情绪。您可以直接在文本提示中指定速度、音高、强调与情绪语气等参数，无需参考音频。

运行 CosyVoice 的硬件需求是什么？ CosyVoice 需要至少 6GB VRAM 的 GPU 来运行基础模型，完整模型需要 12GB+。建议使用支持 CUDA 的 NVIDIA GPU。

CosyVoice：阿里巴巴的开源多语言语音生成模型，拥有 20K 星标

CosyVoice 的语音克隆如何工作？

语音克隆质量比较

CosyVoice 支持哪些语言与方言？

指令模式：控制情绪与风格

CosyVoice 的硬件需求与部署选项是什么？

FAQ

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

CosyVoice：阿里巴巴的开源多语言语音生成模型，拥有 20K 星标

CosyVoice 的语音克隆如何工作？

语音克隆质量比较

CosyVoice 支持哪些语言与方言？

指令模式：控制情绪与风格

CosyVoice 的硬件需求与部署选项是什么？

FAQ

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险