RVC WebUI：基于 VITS 的开源实时语音转换

RVC 是一个基于 VITS 的易用语音转换框架，仅需 10 分钟语音数据即可训练出良好模型，并支持实时转换。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 03, 2026 阅读 10 分钟

RVC（基于检索的语音转换）WebUI 是由 RVC-Project 团队开发的开源语音转换框架，已成为口语与歌唱语境中 AI 语音转换的标准工具。RVC 基于 VITS（变分推理文本转语音）架构，以极少的训练数据实现高品质语音转换——仅需 10 分钟音频即可获得令人信服的语音模型。

该项目通过其基于检索的机制与传统语音转换方法区分开来。RVC 不需要配对数据（不同语音中的相同内容），而是使用特征检索方法，提取并转移说话者特征，同时保留源音频的语言内容。这使其在歌唱语音转换中特别强大，因为在歌唱语音转换中，保留音高、节奏与情感表达至关重要。

什么是 RVC？语音转换如何运作？

RVC 将音频录音中的语音从一个说话者转换为另一个说话者，同时保留语言内容、节奏与情感传递。其过程包括从源音频中提取与说话者无关的内容特征、从目标说话者的训练模型中检索相关语音特征，以及使用目标语音特征重建音频。与 TTS 不同，语音转换不需要文本输入——它以音频为输入，输出不同语音的音频。

训练需求

方面	最低	建议	最佳
语音数据时长	5 分钟	10 分钟	30+ 分钟
音频品质	16kHz/16-bit	44.1kHz/24-bit	48kHz/24-bit
训练步数	10,000	20,000	50,000+
训练时间（RTX 4090）	15 分钟	30 分钟	1 小时

关键组件

RVC 的管线包含几个专门的组件，它们协同运作以提供高品质的语音转换。

组件	功能	技术细节
RMVPE	音高提取	针对歌唱语音的准确 F0 估计
UVR5	源分离	从背景音乐中分离人声
内容提取器	提取内容特征	基于 HuBERT 的特征提取
特征检索器	匹配目标语音	基于 KNN 的数据库检索
VITS 生成器	重建音频	基于 VITS 的神经声码器

实时语音转换如何运作？

RVC 支持实时语音转换，在现代 GPU 上延迟低至 20-30ms。在实时模式下，音频以小的重叠帧进行处理。内容提取器分析每个帧，特征检索器找到最匹配的目标特征，VITS 生成器产生转换后的输出。这使得可以实现流式语音变声器、实时口译与交互式语音滤波器等实时应用。

flowchart LR
    A[源音频输入] --> B[UVR5 源分离]
    B --> C[人声轨道]
    C --> D[RMVPE 音高提取]
    C --> E[内容提取器（HuBERT）]
    D --> F[音高特征]
    E --> G[内容特征]
    G --> H[特征检索器（KNN）]
    H --> I[匹配的目标特征]
    F --> J[VITS 生成器]
    I --> J
    J --> K[转换后的音频输出]

什么是 RMVPE 组件？

RMVPE（稳健多尺度语音音高估计）是歌唱语音转换的关键组件。与在歌唱的宽广音高范围与快速变化中表现不佳的标准音高提取器不同，RMVPE 专门在歌唱数据上使用多尺度处理进行训练，即使在复杂的人声表演中也能准确跟踪音高。这使得 RVC 能够在将音色改变为目标语音的同时保留歌手的原始旋律。

功能与能力

功能	说明	性能
语音转换	更改任何音频录音的语音	接近实时（10 秒音频约 500ms）
实时转换	实时语音变声	RTX 4090 上 20-30ms 延迟
歌唱语音	保留音高的歌曲语音转换	优秀品质
跨语言	跨语言语音转换	良好（受语言覆盖限制）
批处理	一次转换多个文件	可配置批次大小
音频增强	后处理滤波器与 EQ	内置均衡器

什么是 UVR5？为什么需要它？

UVR5（终极人声去除器 5）是源分离组件。当从歌曲中转换语音时，UVR5 首先将人声轨道与背景音乐分离。这种分离至关重要，因为语音转换模型只需要处理语音信号——处理混合音频会引入音乐产生的伪影。UVR5 使用基于 Demucs 的深度学习模型，达到最先进的分离品质，在保留人声品质的同时有效去除乐器伴奏。

sequenceDiagram
    participant User as 用户
    participant RVC as RVC WebUI
    participant UVR as UVR5 分离器
    participant Model as 语音模型
    participant Output as 音频输出

    User->>RVC: 上传含人声的歌曲
    RVC->>UVR: 将人声与音乐分离
    UVR-->>RVC: 隔离的人声轨道
    RVC->>RVC: 应用 RMVPE 音高检测
    RVC->>Model: 提取 + 检索特征
    Model-->>RVC: 转换后的语音特征
    RVC->>RVC: VITS 重建
    RVC-->>Output: 转换后的音频
    Note over Output: 1 分钟音频约 3 秒处理

RVC 的硬件需求是什么？

GPU	实时延迟	训练速度	品质
RTX 4090（24 GB）	20-30ms	15 分钟（10k 步）	优秀
RTX 3090（24 GB）	25-35ms	25 分钟	优秀
RTX 3060（12 GB）	40-50ms	45 分钟	非常好
GTX 1660（6 GB）	60-80ms	90 分钟	良好
仅 CPU	500-1000ms	不推荐	尚可

如何安装与使用 RVC？

RVC WebUI 为 Windows 提供一键安装程序，并为 Linux 与 macOS 提供手动安装指南。网页界面引导用户完成整个工作流：上传训练数据、预处理音频（通过 UVR5）、提取特征、训练语音模型（可调整步数与学习率），以及使用可调参数（如音高偏移、共振峰保留与检索强度）执行语音转换。

常见问题

什么是 RVC？ RVC（基于检索的语音转换）是一个基于 VITS 的开源语音转换框架，仅需 10 分钟音频数据即可训练高品质语音模型。

需要多少训练数据？ 最低 5 分钟，建议 10 分钟，最佳 30+ 分钟的干净人声音频以获得高品质语音模型。

什么是 RMVPE？ RMVPE 是一个稳健的多尺度音高提取组件，专为歌唱语音转换中的准确音高跟踪而设计。

什么是 UVR5？ UVR5（终极人声去除器 5）是源分离组件，在语音转换前将人声与背景音乐分离。

RVC 是否支持实时转换？ 是的，在高端 GPU（如 RTX 4090）上延迟为 20-30ms，适用于实时流式与实时语音变声应用。

RVC WebUI：基于 VITS 的开源实时语音转换

什么是 RVC？语音转换如何运作？

训练需求

关键组件

实时语音转换如何运作？

什么是 RMVPE 组件？

功能与能力

什么是 UVR5？为什么需要它？

RVC 的硬件需求是什么？

如何安装与使用 RVC？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

RVC WebUI：基于 VITS 的开源实时语音转换

什么是 RVC？语音转换如何运作？

训练需求

关键组件

实时语音转换如何运作？

什么是 RMVPE 组件？

功能与能力

什么是 UVR5？为什么需要它？

RVC 的硬件需求是什么？

如何安装与使用 RVC？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险