RVC(基于检索的语音转换)WebUI 是由 RVC-Project 团队开发的开源语音转换框架,已成为口语与歌唱语境中 AI 语音转换的标准工具。RVC 基于 VITS(变分推理文本转语音)架构,以极少的训练数据实现高品质语音转换——仅需 10 分钟音频即可获得令人信服的语音模型。
该项目通过其基于检索的机制与传统语音转换方法区分开来。RVC 不需要配对数据(不同语音中的相同内容),而是使用特征检索方法,提取并转移说话者特征,同时保留源音频的语言内容。这使其在歌唱语音转换中特别强大,因为在歌唱语音转换中,保留音高、节奏与情感表达至关重要。
什么是 RVC?语音转换如何运作?
RVC 将音频录音中的语音从一个说话者转换为另一个说话者,同时保留语言内容、节奏与情感传递。其过程包括从源音频中提取与说话者无关的内容特征、从目标说话者的训练模型中检索相关语音特征,以及使用目标语音特征重建音频。与 TTS 不同,语音转换不需要文本输入——它以音频为输入,输出不同语音的音频。
训练需求
| 方面 | 最低 | 建议 | 最佳 |
|---|---|---|---|
| 语音数据时长 | 5 分钟 | 10 分钟 | 30+ 分钟 |
| 音频品质 | 16kHz/16-bit | 44.1kHz/24-bit | 48kHz/24-bit |
| 训练步数 | 10,000 | 20,000 | 50,000+ |
| 训练时间(RTX 4090) | 15 分钟 | 30 分钟 | 1 小时 |
关键组件
RVC 的管线包含几个专门的组件,它们协同运作以提供高品质的语音转换。
| 组件 | 功能 | 技术细节 |
|---|---|---|
| RMVPE | 音高提取 | 针对歌唱语音的准确 F0 估计 |
| UVR5 | 源分离 | 从背景音乐中分离人声 |
| 内容提取器 | 提取内容特征 | 基于 HuBERT 的特征提取 |
| 特征检索器 | 匹配目标语音 | 基于 KNN 的数据库检索 |
| VITS 生成器 | 重建音频 | 基于 VITS 的神经声码器 |
实时语音转换如何运作?
RVC 支持实时语音转换,在现代 GPU 上延迟低至 20-30ms。在实时模式下,音频以小的重叠帧进行处理。内容提取器分析每个帧,特征检索器找到最匹配的目标特征,VITS 生成器产生转换后的输出。这使得可以实现流式语音变声器、实时口译与交互式语音滤波器等实时应用。
flowchart LR
A[源音频输入] --> B[UVR5 源分离]
B --> C[人声轨道]
C --> D[RMVPE 音高提取]
C --> E[内容提取器(HuBERT)]
D --> F[音高特征]
E --> G[内容特征]
G --> H[特征检索器(KNN)]
H --> I[匹配的目标特征]
F --> J[VITS 生成器]
I --> J
J --> K[转换后的音频输出]什么是 RMVPE 组件?
RMVPE(稳健多尺度语音音高估计)是歌唱语音转换的关键组件。与在歌唱的宽广音高范围与快速变化中表现不佳的标准音高提取器不同,RMVPE 专门在歌唱数据上使用多尺度处理进行训练,即使在复杂的人声表演中也能准确跟踪音高。这使得 RVC 能够在将音色改变为目标语音的同时保留歌手的原始旋律。
功能与能力
| 功能 | 说明 | 性能 |
|---|---|---|
| 语音转换 | 更改任何音频录音的语音 | 接近实时(10 秒音频约 500ms) |
| 实时转换 | 实时语音变声 | RTX 4090 上 20-30ms 延迟 |
| 歌唱语音 | 保留音高的歌曲语音转换 | 优秀品质 |
| 跨语言 | 跨语言语音转换 | 良好(受语言覆盖限制) |
| 批处理 | 一次转换多个文件 | 可配置批次大小 |
| 音频增强 | 后处理滤波器与 EQ | 内置均衡器 |
什么是 UVR5?为什么需要它?
UVR5(终极人声去除器 5)是源分离组件。当从歌曲中转换语音时,UVR5 首先将人声轨道与背景音乐分离。这种分离至关重要,因为语音转换模型只需要处理语音信号——处理混合音频会引入音乐产生的伪影。UVR5 使用基于 Demucs 的深度学习模型,达到最先进的分离品质,在保留人声品质的同时有效去除乐器伴奏。
sequenceDiagram
participant User as 用户
participant RVC as RVC WebUI
participant UVR as UVR5 分离器
participant Model as 语音模型
participant Output as 音频输出
User->>RVC: 上传含人声的歌曲
RVC->>UVR: 将人声与音乐分离
UVR-->>RVC: 隔离的人声轨道
RVC->>RVC: 应用 RMVPE 音高检测
RVC->>Model: 提取 + 检索特征
Model-->>RVC: 转换后的语音特征
RVC->>RVC: VITS 重建
RVC-->>Output: 转换后的音频
Note over Output: 1 分钟音频约 3 秒处理RVC 的硬件需求是什么?
| GPU | 实时延迟 | 训练速度 | 品质 |
|---|---|---|---|
| RTX 4090(24 GB) | 20-30ms | 15 分钟(10k 步) | 优秀 |
| RTX 3090(24 GB) | 25-35ms | 25 分钟 | 优秀 |
| RTX 3060(12 GB) | 40-50ms | 45 分钟 | 非常好 |
| GTX 1660(6 GB) | 60-80ms | 90 分钟 | 良好 |
| 仅 CPU | 500-1000ms | 不推荐 | 尚可 |
如何安装与使用 RVC?
RVC WebUI 为 Windows 提供一键安装程序,并为 Linux 与 macOS 提供手动安装指南。网页界面引导用户完成整个工作流:上传训练数据、预处理音频(通过 UVR5)、提取特征、训练语音模型(可调整步数与学习率),以及使用可调参数(如音高偏移、共振峰保留与检索强度)执行语音转换。
常见问题
什么是 RVC? RVC(基于检索的语音转换)是一个基于 VITS 的开源语音转换框架,仅需 10 分钟音频数据即可训练高品质语音模型。
需要多少训练数据? 最低 5 分钟,建议 10 分钟,最佳 30+ 分钟的干净人声音频以获得高品质语音模型。
什么是 RMVPE? RMVPE 是一个稳健的多尺度音高提取组件,专为歌唱语音转换中的准确音高跟踪而设计。
什么是 UVR5? UVR5(终极人声去除器 5)是源分离组件,在语音转换前将人声与背景音乐分离。
RVC 是否支持实时转换? 是的,在高端 GPU(如 RTX 4090)上延迟为 20-30ms,适用于实时流式与实时语音变声应用。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!