AI

RVC WebUI:基于 VITS 的开源实时语音转换

RVC 是一个基于 VITS 的易用语音转换框架,仅需 10 分钟语音数据即可训练出良好模型,并支持实时转换。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
RVC WebUI:基于 VITS 的开源实时语音转换

RVC(基于检索的语音转换)WebUI 是由 RVC-Project 团队开发的开源语音转换框架,已成为口语与歌唱语境中 AI 语音转换的标准工具。RVC 基于 VITS(变分推理文本转语音)架构,以极少的训练数据实现高品质语音转换——仅需 10 分钟音频即可获得令人信服的语音模型。

该项目通过其基于检索的机制与传统语音转换方法区分开来。RVC 不需要配对数据(不同语音中的相同内容),而是使用特征检索方法,提取并转移说话者特征,同时保留源音频的语言内容。这使其在歌唱语音转换中特别强大,因为在歌唱语音转换中,保留音高、节奏与情感表达至关重要。

什么是 RVC?语音转换如何运作?

RVC 将音频录音中的语音从一个说话者转换为另一个说话者,同时保留语言内容、节奏与情感传递。其过程包括从源音频中提取与说话者无关的内容特征、从目标说话者的训练模型中检索相关语音特征,以及使用目标语音特征重建音频。与 TTS 不同,语音转换不需要文本输入——它以音频为输入,输出不同语音的音频。

训练需求

方面最低建议最佳
语音数据时长5 分钟10 分钟30+ 分钟
音频品质16kHz/16-bit44.1kHz/24-bit48kHz/24-bit
训练步数10,00020,00050,000+
训练时间(RTX 4090)15 分钟30 分钟1 小时

关键组件

RVC 的管线包含几个专门的组件,它们协同运作以提供高品质的语音转换。

组件功能技术细节
RMVPE音高提取针对歌唱语音的准确 F0 估计
UVR5源分离从背景音乐中分离人声
内容提取器提取内容特征基于 HuBERT 的特征提取
特征检索器匹配目标语音基于 KNN 的数据库检索
VITS 生成器重建音频基于 VITS 的神经声码器

实时语音转换如何运作?

RVC 支持实时语音转换,在现代 GPU 上延迟低至 20-30ms。在实时模式下,音频以小的重叠帧进行处理。内容提取器分析每个帧,特征检索器找到最匹配的目标特征,VITS 生成器产生转换后的输出。这使得可以实现流式语音变声器、实时口译与交互式语音滤波器等实时应用。

什么是 RMVPE 组件?

RMVPE(稳健多尺度语音音高估计)是歌唱语音转换的关键组件。与在歌唱的宽广音高范围与快速变化中表现不佳的标准音高提取器不同,RMVPE 专门在歌唱数据上使用多尺度处理进行训练,即使在复杂的人声表演中也能准确跟踪音高。这使得 RVC 能够在将音色改变为目标语音的同时保留歌手的原始旋律。

功能与能力

功能说明性能
语音转换更改任何音频录音的语音接近实时(10 秒音频约 500ms)
实时转换实时语音变声RTX 4090 上 20-30ms 延迟
歌唱语音保留音高的歌曲语音转换优秀品质
跨语言跨语言语音转换良好(受语言覆盖限制)
批处理一次转换多个文件可配置批次大小
音频增强后处理滤波器与 EQ内置均衡器

什么是 UVR5?为什么需要它?

UVR5(终极人声去除器 5)是源分离组件。当从歌曲中转换语音时,UVR5 首先将人声轨道与背景音乐分离。这种分离至关重要,因为语音转换模型只需要处理语音信号——处理混合音频会引入音乐产生的伪影。UVR5 使用基于 Demucs 的深度学习模型,达到最先进的分离品质,在保留人声品质的同时有效去除乐器伴奏。

RVC 的硬件需求是什么?

GPU实时延迟训练速度品质
RTX 4090(24 GB)20-30ms15 分钟(10k 步)优秀
RTX 3090(24 GB)25-35ms25 分钟优秀
RTX 3060(12 GB)40-50ms45 分钟非常好
GTX 1660(6 GB)60-80ms90 分钟良好
仅 CPU500-1000ms不推荐尚可

如何安装与使用 RVC?

RVC WebUI 为 Windows 提供一键安装程序,并为 Linux 与 macOS 提供手动安装指南。网页界面引导用户完成整个工作流:上传训练数据、预处理音频(通过 UVR5)、提取特征、训练语音模型(可调整步数与学习率),以及使用可调参数(如音高偏移、共振峰保留与检索强度)执行语音转换。

常见问题

什么是 RVC? RVC(基于检索的语音转换)是一个基于 VITS 的开源语音转换框架,仅需 10 分钟音频数据即可训练高品质语音模型。

需要多少训练数据? 最低 5 分钟,建议 10 分钟,最佳 30+ 分钟的干净人声音频以获得高品质语音模型。

什么是 RMVPE? RMVPE 是一个稳健的多尺度音高提取组件,专为歌唱语音转换中的准确音高跟踪而设计。

什么是 UVR5? UVR5(终极人声去除器 5)是源分离组件,在语音转换前将人声与背景音乐分离。

RVC 是否支持实时转换? 是的,在高端 GPU(如 RTX 4090)上延迟为 20-30ms,适用于实时流式与实时语音变声应用。

延伸阅读

TAG
CATEGORIES