GPT-SoVITS 是由 RVC-Boss 开发的开源语音克隆与文本转语音系统,在 AI 音频社区中引起轰动。该项目的突出能力是仅需 1 分钟语音数据即可训练令人信服的语音模型的少样本语音克隆,而零样本能力只需 5-10 秒的参考音频。支持中文、英文、日文与韩文,GPT-SoVITS 结合了基于 GPT 的自回归建模能力与 SoVITS(使用基于 Transformer 的 Sinkhorn 进行迭代求精的歌唱语音合成)的频谱保真度。
该项目通过让任何拥有消费级 GPU 的人都能获得专业级语音克隆能力,在 GitHub 上积累了巨大人气。与按分钟收费或需要云端上传的商业语音克隆服务不同,GPT-SoVITS 完全在本地运行,保护用户隐私并实现无限使用。品质通过迭代版本大幅提升,最新版本在训练语音方面接近录音室级别的保真度。
什么是 GPT-SoVITS?它如何运作?
GPT-SoVITS 使用两阶段架构。首先,基于 GPT 的自回归模型根据说话者参考从文本输入生成语义 token。这些语义 token 捕捉韵律、语调与说话风格。其次,基于 SoVITS 的扩散模型将语义 token 转换为高保真音频。这种分离让 GPT 组件专注于「说什么与怎么说」,而 SoVITS 组件专注于「如何让它听起来真实」。
需要多少训练数据?
| 模式 | 参考音频 | 训练时间(RTX 4090) | 品质 |
|---|---|---|---|
| 零样本 | 5-10 秒 | 无(即时) | 良好 |
| 快速少样本 | 30 秒 | 2-3 分钟 | 非常好 |
| 标准少样本 | 1 分钟 | 5-10 分钟 | 优秀 |
| 最佳 | 3-5 分钟 | 15-30 分钟 | 录音室品质 |
支持哪些语言?
| 语言 | 零样本 | 少样本 | 品质评级 |
|---|---|---|---|
| 中文 | 优秀 | 优秀 | 最佳 |
| 英文 | 优秀 | 优秀 | 最佳 |
| 日文 | 非常好 | 非常好 | 非常高 |
| 韩文 | 良好 | 非常好 | 高 |
| 粤语 | 尚可 | 良好 | Beta |
| 其他语言 | 通过迁移 | 实验性 | 视情况而定 |
零样本语音克隆如何运作?
GPT-SoVITS 中的零样本语音克隆只需要一个简短的参考音频片段(5-10 秒)。系统使用预训练的说话者编码器提取说话者嵌入,并在推理期间用它来条件化 GPT 模型。虽然零样本品质在简短语句上表现良好,但在情感变化和不寻常的韵律方面可能会遇到困难。对于生产用途,建议使用 1 分钟数据进行少样本微调以获得显著更好的品质。
flowchart LR
A[参考音频] --> B[说话者编码器]
B --> C[说话者嵌入]
D[文本输入] --> E[文本分词器]
E --> F[GPT 模型]
C --> F
F --> G[语义 Token]
G --> H[SoVITS 扩散]
H --> I[梅尔频谱]
I --> J[声码器]
J --> K[输出音频]GPT-SoVITS 提供哪些功能?
| 功能 | 说明 | 状态 |
|---|---|---|
| 文本转语音 | 用克隆的语音从文本生成语音 | 稳定 |
| 语音转换 | 将任何音频转换为目标语音 | 稳定 |
| 情感控制 | 调整生成语音的情感语调 | Beta |
| 跨语言 | 用一种语言的语音说另一种语言 | 稳定 |
| 实时 | 低延迟推理,适用于交互使用 | 实验性 |
| Web UI | Gradio 图形界面 | 稳定 |
| API 服务器 | REST API,适用于程序化集成 | 稳定 |
GPT-SoVITS 与其他语音克隆工具相比如何?
与 ElevenLabs 等商业解决方案相比,GPT-SoVITS 在训练语音方面提供可比的品质,同时免费且完全本地化。与 Coqui TTS 或 Tortoise-TTS 等其他开源 TTS 模型相比,GPT-SoVITS 通常以更少的训练数据产生更自然的韵律与更好的语音相似度。相较于 VALL-E 与类似基于 token 的方法,GPT-SoVITS 的关键优势是能够在不需要每个说话者大量训练数据的情况下产生高品质结果。
sequenceDiagram
participant User as 用户
participant GPT as GPT 模型
participant SoVITS as SoVITS 扩散
participant Vocoder as 声码器
User->>GPT: "您好,欢迎来到我们的播客" + 参考音频
GPT->>GPT: 生成语义 token
GPT-->>SoVITS: 带韵律的 token 序列
SoVITS->>SoVITS: 迭代求精
SoVITS-->>Vocoder: 梅尔频谱
Vocoder->>Vocoder: 波形生成
Vocoder-->>User: 音频输出
Note over User,Vocoder: 10 秒音频总延迟约 500ms硬件需求为何?
| 组件 | 最低 | 建议 |
|---|---|---|
| GPU 内存 | 6 GB VRAM | 12 GB VRAM |
| GPU 型号 | RTX 3060 | RTX 4090 |
| RAM | 16 GB | 32 GB |
| 存储空间 | 10 GB(模型 + 依赖) | 20 GB |
| 训练时间(1 分钟数据) | 30 分钟(RTX 3060) | 5-10 分钟(RTX 4090) |
如何安装 GPT-SoVITS?
安装通过项目的一键安装程序在 Windows 与 Linux 上简化。对于手动安装,该项目需要 Python 3.9+、支持 CUDA 的 PyTorch 以及几个音频处理库。Gradio Web UI 在设置后自动启动,提供语音克隆、TTS 生成与语音转换的直观界面。提供 API 模式用于服务器部署与其他应用程序的集成。
常见问题
什么是 GPT-SoVITS? GPT-SoVITS 是一个开源语音克隆 TTS 系统,只需 1 分钟训练数据即可克隆语音,支持中文、英文、日文与韩文。
需要多少训练数据? 零样本仅需 5-10 秒音频,少样本约需 1 分钟以获得高品质,最佳效果使用 3-5 分钟。
零样本与少样本的区别是什么? 零样本在推理时使用参考音频而不微调;少样本对模型进行微调以获得更好的品质与相似度。
支持哪些语言? 完整支持中文(最佳品质)、英文、日文与韩文。其他语言通过跨语言迁移提供实验性支持。
硬件需求为何? 最低 6 GB VRAM(RTX 3060),建议 12+ GB(RTX 4090)。训练 1 分钟数据需 5-30 分钟,视 GPU 而定。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!