GPT-SoVITS 是由 RVC-Boss 開發的開源語音複製與文字轉語音系統,在 AI 音訊社群中引起轟動。該專案的突出能力是僅需 1 分鐘語音資料即可訓練令人信服的語音模型的少量樣本語音複製,而零樣本能力只需 5-10 秒的參考音訊。支援中文、英文、日文與韓文,GPT-SoVITS 結合了基於 GPT 的自回歸建模能力與 SoVITS(使用基於 Transformer 的 Sinkhorn 進行迭代求精的歌唱語音合成)的頻譜保真度。
該專案透過讓任何擁有消費級 GPU 的人都能獲得專業級語音複製能力,在 GitHub 上積累了大量人氣。與按分鐘收費或需要雲端上傳的商業語音複製服務不同,GPT-SoVITS 完全在本地運行,保護使用者隱私並實現無限使用。品質透過迭代版本大幅提升,最新版本在訓練語音方面接近錄音室等級的保真度。
什麼是 GPT-SoVITS?它如何運作?
GPT-SoVITS 使用兩階段架構。首先,基於 GPT 的自回歸模型根據說話者參考從文字輸入生成語義 token。這些語義 token 捕捉韻律、語調與說話風格。其次,基於 SoVITS 的擴散模型將語義 token 轉換為高保真音訊。這種分離讓 GPT 元件專注於「說什麼與怎麼說」,而 SoVITS 元件專注於「如何讓它聽起來真實」。
需要多少訓練資料?
| 模式 | 參考音訊 | 訓練時間(RTX 4090) | 品質 |
|---|---|---|---|
| 零樣本 | 5-10 秒 | 無(即時) | 良好 |
| 快速少量樣本 | 30 秒 | 2-3 分鐘 | 非常好 |
| 標準少量樣本 | 1 分鐘 | 5-10 分鐘 | 優秀 |
| 最佳 | 3-5 分鐘 | 15-30 分鐘 | 錄音室品質 |
支援哪些語言?
| 語言 | 零樣本 | 少量樣本 | 品質評級 |
|---|---|---|---|
| 中文 | 優秀 | 優秀 | 最佳 |
| 英文 | 優秀 | 優秀 | 最佳 |
| 日文 | 非常好 | 非常好 | 非常高 |
| 韓文 | 良好 | 非常好 | 高 |
| 粵語 | 尚可 | 良好 | Beta |
| 其他語言 | 透過遷移 | 實驗性 | 視情況而定 |
零樣本語音複製如何運作?
GPT-SoVITS 中的零樣本語音複製只需要一個簡短的參考音訊片段(5-10 秒)。系統使用預訓練的說話者編碼器提取說話者嵌入,並在推論期間用它來條件化 GPT 模型。雖然零樣本品質在簡短語句上表現良好,但在情感變化和不尋常的韻律方面可能會有困難。對於生產用途,建議使用 1 分鐘資料進行少量樣本微調以獲得顯著更好的品質。
flowchart LR
A[參考音訊] --> B[說話者編碼器]
B --> C[說話者嵌入]
D[文字輸入] --> E[文字分詞器]
E --> F[GPT 模型]
C --> F
F --> G[語義 Token]
G --> H[SoVITS 擴散]
H --> I[梅爾頻譜]
I --> J[聲碼器]
J --> K[輸出音訊]GPT-SoVITS 提供哪些功能?
| 功能 | 說明 | 狀態 |
|---|---|---|
| 文字轉語音 | 用複製的語音從文字生成語音 | 穩定 |
| 語音轉換 | 將任何音訊轉換為目標語音 | 穩定 |
| 情感控制 | 調整生成語音的情感語調 | Beta |
| 跨語言 | 用一種語言的語音說另一種語言 | 穩定 |
| 即時 | 低延遲推論,適用於互動使用 | 實驗性 |
| Web UI | Gradio 圖形介面 | 穩定 |
| API 伺服器 | REST API,適用於程式化整合 | 穩定 |
GPT-SoVITS 與其他語音複製工具相比如何?
與 ElevenLabs 等商業解決方案相比,GPT-SoVITS 在訓練語音方面提供可比的品質,同時免費且完全本地化。與 Coqui TTS 或 Tortoise-TTS 等其他開源 TTS 模型相比,GPT-SoVITS 通常以更少的訓練資料產生更自然的韻律與更好的語音相似度。相較於 VALL-E 與類似基於 token 的方法,GPT-SoVITS 的關鍵優勢是能夠在不需要每個說話者大量訓練資料的情況下產生高品質結果。
sequenceDiagram
participant User as 使用者
participant GPT as GPT 模型
participant SoVITS as SoVITS 擴散
participant Vocoder as 聲碼器
User->>GPT: "您好,歡迎來到我們的播客" + 參考音訊
GPT->>GPT: 生成語義 token
GPT-->>SoVITS: 帶韻律的 token 序列
SoVITS->>SoVITS: 迭代求精
SoVITS-->>Vocoder: 梅爾頻譜
Vocoder->>Vocoder: 波形生成
Vocoder-->>User: 音訊輸出
Note over User,Vocoder: 10 秒音訊總延遲約 500ms硬體需求為何?
| 元件 | 最低 | 建議 |
|---|---|---|
| GPU 記憶體 | 6 GB VRAM | 12 GB VRAM |
| GPU 型號 | RTX 3060 | RTX 4090 |
| RAM | 16 GB | 32 GB |
| 儲存空間 | 10 GB(模型 + 依賴) | 20 GB |
| 訓練時間(1 分鐘資料) | 30 分鐘(RTX 3060) | 5-10 分鐘(RTX 4090) |
如何安裝 GPT-SoVITS?
安裝透過專案的一鍵安裝程式在 Windows 與 Linux 上簡化。對於手動安裝,該專案需要 Python 3.9+、支援 CUDA 的 PyTorch 以及幾個音訊處理庫。Gradio Web UI 在設定後自動啟動,提供語音複製、TTS 生成與語音轉換的直觀介面。提供 API 模式用於伺服器部署與其他應用程式的整合。
常見問題
什麼是 GPT-SoVITS? GPT-SoVITS 是一個開源語音複製 TTS 系統,只需 1 分鐘訓練資料即可複製語音,支援中文、英文、日文與韓文。
需要多少訓練資料? 零樣本僅需 5-10 秒音訊,少量樣本約需 1 分鐘以獲得高品質,最佳效果使用 3-5 分鐘。
零樣本與少量樣本的區別是什麼? 零樣本在推論時使用參考音訊而不微調;少量樣本對模型進行微調以獲得更好的品質與相似度。
支援哪些語言? 完整支援中文(最佳品質)、英文、日文與韓文。其他語言透過跨語言遷移提供實驗性支援。
硬體需求為何? 最低 6 GB VRAM(RTX 3060),建議 12+ GB(RTX 4090)。訓練 1 分鐘資料需 5-30 分鐘,視 GPU 而定。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!