GPT-SoVITS：仅需 1 分钟语音数据的少样本语音克隆

GPT-SoVITS 是一个开源语音克隆 TTS 模型，仅需 1 分钟语音数据即可训练，支持中文、英文、日文与韩文。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 03, 2026 阅读 9 分钟

GPT-SoVITS 是由 RVC-Boss 开发的开源语音克隆与文本转语音系统，在 AI 音频社区中引起轰动。该项目的突出能力是仅需 1 分钟语音数据即可训练令人信服的语音模型的少样本语音克隆，而零样本能力只需 5-10 秒的参考音频。支持中文、英文、日文与韩文，GPT-SoVITS 结合了基于 GPT 的自回归建模能力与 SoVITS（使用基于 Transformer 的 Sinkhorn 进行迭代求精的歌唱语音合成）的频谱保真度。

该项目通过让任何拥有消费级 GPU 的人都能获得专业级语音克隆能力，在 GitHub 上积累了巨大人气。与按分钟收费或需要云端上传的商业语音克隆服务不同，GPT-SoVITS 完全在本地运行，保护用户隐私并实现无限使用。品质通过迭代版本大幅提升，最新版本在训练语音方面接近录音室级别的保真度。

什么是 GPT-SoVITS？它如何运作？

GPT-SoVITS 使用两阶段架构。首先，基于 GPT 的自回归模型根据说话者参考从文本输入生成语义 token。这些语义 token 捕捉韵律、语调与说话风格。其次，基于 SoVITS 的扩散模型将语义 token 转换为高保真音频。这种分离让 GPT 组件专注于「说什么与怎么说」，而 SoVITS 组件专注于「如何让它听起来真实」。

需要多少训练数据？

模式	参考音频	训练时间（RTX 4090）	品质
零样本	5-10 秒	无（即时）	良好
快速少样本	30 秒	2-3 分钟	非常好
标准少样本	1 分钟	5-10 分钟	优秀
最佳	3-5 分钟	15-30 分钟	录音室品质

支持哪些语言？

语言	零样本	少样本	品质评级
中文	优秀	优秀	最佳
英文	优秀	优秀	最佳
日文	非常好	非常好	非常高
韩文	良好	非常好	高
粤语	尚可	良好	Beta
其他语言	通过迁移	实验性	视情况而定

零样本语音克隆如何运作？

GPT-SoVITS 中的零样本语音克隆只需要一个简短的参考音频片段（5-10 秒）。系统使用预训练的说话者编码器提取说话者嵌入，并在推理期间用它来条件化 GPT 模型。虽然零样本品质在简短语句上表现良好，但在情感变化和不寻常的韵律方面可能会遇到困难。对于生产用途，建议使用 1 分钟数据进行少样本微调以获得显著更好的品质。

flowchart LR
    A[参考音频] --> B[说话者编码器]
    B --> C[说话者嵌入]
    D[文本输入] --> E[文本分词器]
    E --> F[GPT 模型]
    C --> F
    F --> G[语义 Token]
    G --> H[SoVITS 扩散]
    H --> I[梅尔频谱]
    I --> J[声码器]
    J --> K[输出音频]

GPT-SoVITS 提供哪些功能？

功能	说明	状态
文本转语音	用克隆的语音从文本生成语音	稳定
语音转换	将任何音频转换为目标语音	稳定
情感控制	调整生成语音的情感语调	Beta
跨语言	用一种语言的语音说另一种语言	稳定
实时	低延迟推理，适用于交互使用	实验性
Web UI	Gradio 图形界面	稳定
API 服务器	REST API，适用于程序化集成	稳定

GPT-SoVITS 与其他语音克隆工具相比如何？

与 ElevenLabs 等商业解决方案相比，GPT-SoVITS 在训练语音方面提供可比的品质，同时免费且完全本地化。与 Coqui TTS 或 Tortoise-TTS 等其他开源 TTS 模型相比，GPT-SoVITS 通常以更少的训练数据产生更自然的韵律与更好的语音相似度。相较于 VALL-E 与类似基于 token 的方法，GPT-SoVITS 的关键优势是能够在不需要每个说话者大量训练数据的情况下产生高品质结果。

sequenceDiagram
    participant User as 用户
    participant GPT as GPT 模型
    participant SoVITS as SoVITS 扩散
    participant Vocoder as 声码器

    User->>GPT: "您好，欢迎来到我们的播客" + 参考音频
    GPT->>GPT: 生成语义 token
    GPT-->>SoVITS: 带韵律的 token 序列
    SoVITS->>SoVITS: 迭代求精
    SoVITS-->>Vocoder: 梅尔频谱
    Vocoder->>Vocoder: 波形生成
    Vocoder-->>User: 音频输出
    Note over User,Vocoder: 10 秒音频总延迟约 500ms

硬件需求为何？

组件	最低	建议
GPU 内存	6 GB VRAM	12 GB VRAM
GPU 型号	RTX 3060	RTX 4090
RAM	16 GB	32 GB
存储空间	10 GB（模型 + 依赖）	20 GB
训练时间（1 分钟数据）	30 分钟（RTX 3060）	5-10 分钟（RTX 4090）

如何安装 GPT-SoVITS？

安装通过项目的一键安装程序在 Windows 与 Linux 上简化。对于手动安装，该项目需要 Python 3.9+、支持 CUDA 的 PyTorch 以及几个音频处理库。Gradio Web UI 在设置后自动启动，提供语音克隆、TTS 生成与语音转换的直观界面。提供 API 模式用于服务器部署与其他应用程序的集成。

常见问题

什么是 GPT-SoVITS？ GPT-SoVITS 是一个开源语音克隆 TTS 系统，只需 1 分钟训练数据即可克隆语音，支持中文、英文、日文与韩文。

需要多少训练数据？ 零样本仅需 5-10 秒音频，少样本约需 1 分钟以获得高品质，最佳效果使用 3-5 分钟。

零样本与少样本的区别是什么？ 零样本在推理时使用参考音频而不微调；少样本对模型进行微调以获得更好的品质与相似度。

支持哪些语言？ 完整支持中文（最佳品质）、英文、日文与韩文。其他语言通过跨语言迁移提供实验性支持。

硬件需求为何？ 最低 6 GB VRAM（RTX 3060），建议 12+ GB（RTX 4090）。训练 1 分钟数据需 5-30 分钟，视 GPU 而定。

GPT-SoVITS：仅需 1 分钟语音数据的少样本语音克隆

什么是 GPT-SoVITS？它如何运作？

需要多少训练数据？

支持哪些语言？

零样本语音克隆如何运作？

GPT-SoVITS 提供哪些功能？

GPT-SoVITS 与其他语音克隆工具相比如何？

硬件需求为何？

如何安装 GPT-SoVITS？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

GPT-SoVITS：仅需 1 分钟语音数据的少样本语音克隆

什么是 GPT-SoVITS？它如何运作？

需要多少训练数据？

支持哪些语言？

零样本语音克隆如何运作？

GPT-SoVITS 提供哪些功能？

GPT-SoVITS 与其他语音克隆工具相比如何？

硬件需求为何？

如何安装 GPT-SoVITS？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险