語音生成技術取得了顯著進步,但大多數開源文字轉語音(TTS)模型仍在一個基本權衡中掙扎:品質與語言覆蓋率之間的取捨。由阿里巴巴 FunAudioLLM 團隊開發的 CosyVoice 打破了這個障礙,在 9 種語言與 18 種以上中文方言中提供生產級品質的語音生成。
憑藉超過 20,000 個 GitHub 星星,CosyVoice 已成為開發者與研究人員的首選解決方案,他們需要具備零樣本語音複製、情緒控制與指令跟隨生成等先進能力的多語言語音合成。與按字元收費並限制自定義的商業 TTS API 不同,CosyVoice 是完全開源且可自架的。
該模型的架構基於一種新穎的方法,將內容、說話者與風格資訊分離到不同的潛在空間中,從而實現對生成語音前所未有的控制。這種設計允許使用者混合搭配聲音、語言與說話風格,而這些以前需要大量的微調或單獨的模型。
CosyVoice 的語音複製如何運作?
CosyVoice 的零樣本語音複製是其最令人印象深刻的能力之一。它可以在沒有任何微調或訓練的情況下,從僅 3 到 10 秒的音訊中複製說話者的聲音。
flowchart TD
A["參考音訊\n3-10 秒"] --> B["語音編碼器\n提取說話者嵌入"]
B --> C["說話者身份\n潛在表示"]
D["目標文字\n'你好,這是你的聲音'"] --> E["內容編碼器"]
E --> F["內容表示"]
C --> G["交叉注意力\n融合層"]
F --> G
G --> H["流匹配\n解碼器"]
H --> I["🎤 生成的語音\n以參考聲音發出"]
style A fill:#1e1040,color:#ceb9ff
style B fill:#0c3a3d,color:#8ff5ff
style C fill:#1d2634,color:#a5abb8
style D fill:#1e1040,color:#ceb9ff
style E fill:#0c3a3d,color:#8ff5ff
style G fill:#1d2634,color:#a5abb8
style I fill:#0c3a3d,color:#8ff5ff語音編碼器從參考音訊中提取緊湊的說話者嵌入,捕捉音色、音高範圍、口音與說話節奏。然後透過交叉注意力機制將此嵌入與目標文字內容結合,使解碼器能夠生成同時匹配語音與內容的語音。
語音複製品質比較
| 參考音訊長度 | 複製品質 | 瑕疵 | 使用案例 |
|---|---|---|---|
| 3 秒 | 一般(捕捉基本音色) | 些許機器感 | 快速展示 |
| 10 秒 | 良好(捕捉口音與節奏) | 微小瑕疵 | 一般使用 |
| 30 秒 | 很好(捕捉說話風格) | 罕見瑕疵 | 可接受的生產品質 |
| 60+ 秒 | 優秀(近乎完美的複製) | 極少瑕疵 | 高品質生產 |
CosyVoice 支援哪些語言與方言?
CosyVoice 的語言覆蓋率對於開源 TTS 模型來說非常出色,特別是對中文方言的支援。
| 語言 | 本地名稱 | 支援品質 |
|---|---|---|
| 普通話 | 普通话 | 優秀(原生) |
| 英語 | English | 優秀 |
| 日語 | 日本語 | 很好 |
| 韓語 | 한국어 | 很好 |
| 粵語 | 粤語 | 很好 |
| 法語 | Francais | 良好 |
| 西班牙語 | Espanol | 良好 |
| 俄語 | Русский | 良好 |
| 阿拉伯語 | العربية | 良好 |
除了這 9 種語言之外,CosyVoice 還支援 18 種以上的中文方言,包括上海話、四川話、閩南語(臺灣話)、客家話、潮州話等。這使其對於區域應用與保護語言多樣性具有獨特價值。
指令模式:控制情緒與風格
flowchart LR
A["使用者指令\n'用高音調\n興奮地說這個'"] --> B["指令編碼器"]
B --> C["風格嵌入"]
D["要說的文字"] --> E["內容編碼器"]
E --> F[融合]
C --> F
F --> G["🎤 帶有指定\n情緒的語音"]
H["支援的\n參數:"] --> I["速度: 0.5x - 2.0x"]
H --> J["音高: 低, 中, 高"]
H --> K["情緒: 快樂, 悲傷,\n興奮, 平靜, 生氣"]
H --> L["強調: 詞級\n重音控制"]
style A fill:#1e1040,color:#ceb9ff
style C fill:#0c3a3d,color:#8ff5ff
style G fill:#0c3a3d,color:#8ff5ff
style H fill:#1d2634,color:#a5abb8指令模式讓使用者以自然語言描述所需的說話風格,使 CosyVoice 的表達能力遠超傳統 TTS 系統,後者需要複雜的 SSML 標籤或每種變化的參考音訊。
CosyVoice 的硬體需求與部署選項是什麼?
CosyVoice 可以在消費級硬體上運行,儘管效能會根據可用的 GPU 運算能力而有顯著差異。
| 配置 | 所需 VRAM | 推理速度 | 品質 |
|---|---|---|---|
| 基礎模型(CPU) | 無 | 0.5-1 倍即時 | 良好 |
| 基礎模型(6GB GPU) | 6 GB | 2-4 倍即時 | 良好 |
| 完整模型(12GB GPU) | 12 GB | 4-8 倍即時 | 很好 |
| 完整模型(24GB GPU) | 24 GB | 8-15 倍即時 | 優秀 |
| 串流模式 | 4 GB | <500ms 延遲 | 良好 |
該模型可以部署為 Python 函式庫、網頁 API(透過 FastAPI 或 Gradio),或整合到更大的應用程式中。對於生產用途,24GB GPU(RTX 3090/4090)上的完整模型提供了品質與速度的最佳平衡。
FAQ
什麼是 CosyVoice? CosyVoice 是阿里巴巴 FunAudioLLM 團隊開發的開源多語言語音生成模型。它支援文字轉語音(TTS)、零樣本語音複製與情緒可控的語音合成,涵蓋 9 種語言與 18 種以上中文方言。該專案在 GitHub 上擁有超過 20,000 個星星。
CosyVoice 支援哪些語言? CosyVoice 支援 9 種語言:普通話、英語、日語、韓語、法語、西班牙語、俄語、阿拉伯語與粵語。此外,還支援超過 18 種中文方言,包括上海話、四川話、閩南語與客家話。
CosyVoice 的零樣本語音複製如何運作? CosyVoice 的零樣本語音複製可以僅憑 3-10 秒的音訊樣本複製說話者的聲音,無需任何微調。它分析樣本中的語音特徵,並生成相同聲音的新語音。
什麼是 CosyVoice 的指令模式? CosyVoice 的指令模式允許使用者透過自然語言指令控制生成語音的說話風格與情緒。您可以直接在文字提示中指定速度、音高、強調與情緒語氣等參數,無需參考音訊。
運行 CosyVoice 的硬體需求是什麼? CosyVoice 需要至少 6GB VRAM 的 GPU 來運行基礎模型,完整模型需要 12GB+。建議使用支援 CUDA 的 NVIDIA GPU。
延伸閱讀
- CosyVoice GitHub 倉庫 – 原始碼、模型權重與文件
- FunAudioLLM 組織 – 阿里巴巴在 GitHub 上的音訊與語音研究
- Hugging Face CosyVoice 模型 – 預訓練模型權重與推理筆記本
- 零樣本語音複製調查 – 語音複製技術的學術調查
- 阿里雲 ModelScope – 中國模型託管平台,附 CosyVoice 展示
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!