RVC(基於檢索的語音轉換)WebUI 是由 RVC-Project 團隊開發的開源語音轉換框架,已成為口語與歌唱語境中 AI 語音轉換的標準工具。RVC 基於 VITS(變分推論文字轉語音)架構,以極少的訓練資料實現高品質語音轉換——僅需 10 分鐘音訊即可獲得令人信服的語音模型。
該專案透過其基於檢索的機制與傳統語音轉換方法區分開來。RVC 不需要配對資料(不同語音中的相同內容),而是使用特徵檢索方法,提取並轉移說話者特徵,同時保留來源音訊的語言內容。這使其在歌唱語音轉換中特別強大,因為在歌唱語音轉換中,保留音高、節奏與情感表達至關重要。
什麼是 RVC?語音轉換如何運作?
RVC 將音訊錄音中的語音從一個說話者轉換為另一個說話者,同時保留語言內容、節奏與情感傳遞。其過程包括從來源音訊中提取與說話者無關的內容特徵、從目標說話者的訓練模型中檢索相關語音特徵,以及使用目標語音特徵重建音訊。與 TTS 不同,語音轉換不需要文字輸入——它以音訊為輸入,輸出不同語音的音訊。
訓練需求
| 面向 | 最低 | 建議 | 最佳 |
|---|---|---|---|
| 語音資料時長 | 5 分鐘 | 10 分鐘 | 30+ 分鐘 |
| 音訊品質 | 16kHz/16-bit | 44.1kHz/24-bit | 48kHz/24-bit |
| 訓練步數 | 10,000 | 20,000 | 50,000+ |
| 訓練時間(RTX 4090) | 15 分鐘 | 30 分鐘 | 1 小時 |
關鍵元件
RVC 的管線包含幾個專門的元件,它們協同運作以提供高品質的語音轉換。
| 元件 | 功能 | 技術細節 |
|---|---|---|
| RMVPE | 音高提取 | 針對歌唱語音的準確 F0 估計 |
| UVR5 | 來源分離 | 從背景音樂中分離人聲 |
| 內容提取器 | 提取內容特徵 | 基於 HuBERT 的特徵提取 |
| 特徵檢索器 | 匹配目標語音 | 基於 KNN 的資料庫檢索 |
| VITS 生成器 | 重建音訊 | 基於 VITS 的神經聲碼器 |
即時語音轉換如何運作?
RVC 支援即時語音轉換,在現代 GPU 上延遲低至 20-30ms。在即時模式下,音訊以小的重疊幀進行處理。內容提取器分析每個幀,特徵檢索器找到最匹配的目標特徵,VITS 生成器產生轉換後的輸出。這使得可以實現串流語音變聲器、即時口譯與互動式語音濾波器等即時應用。
flowchart LR
A[來源音訊輸入] --> B[UVR5 來源分離]
B --> C[人聲軌道]
C --> D[RMVPE 音高提取]
C --> E[內容提取器(HuBERT)]
D --> F[音高特徵]
E --> G[內容特徵]
G --> H[特徵檢索器(KNN)]
H --> I[匹配的目標特徵]
F --> J[VITS 生成器]
I --> J
J --> K[轉換後的音訊輸出]什麼是 RMVPE 元件?
RMVPE(穩健多尺度語音音高估計)是歌唱語音轉換的關鍵元件。與在歌唱的寬廣音高範圍與快速變化中表現不佳的標準音高提取器不同,RMVPE 專門在歌唱資料上使用多尺度處理進行訓練,即使在複雜的人聲表演中也能準確追蹤音高。這使得 RVC 能夠在將音色改變為目標語音的同時保留歌手的原始旋律。
功能與能力
| 功能 | 說明 | 效能 |
|---|---|---|
| 語音轉換 | 更改任何音訊錄音的語音 | 接近即時(10 秒音訊約 500ms) |
| 即時轉換 | 即時語音變聲 | RTX 4090 上 20-30ms 延遲 |
| 歌唱語音 | 保留音高的歌曲語音轉換 | 優秀品質 |
| 跨語言 | 跨語言語音轉換 | 良好(受語言覆蓋限制) |
| 批次處理 | 一次轉換多個檔案 | 可配置批次大小 |
| 音訊增強 | 後處理濾波器與 EQ | 內建等化器 |
什麼是 UVR5?為什麼需要它?
UVR5(終極人聲去除器 5)是來源分離元件。當從歌曲中轉換語音時,UVR5 首先將人聲軌道與背景音樂分離。這種分離至關重要,因為語音轉換模型只需要處理語音訊號——處理混合音訊會引入音樂產生的偽影。UVR5 使用基於 Demucs 的深度學習模型,達到最先進的分離品質,在保留人聲品質的同時有效去除樂器伴奏。
sequenceDiagram
participant User as 使用者
participant RVC as RVC WebUI
participant UVR as UVR5 分離器
participant Model as 語音模型
participant Output as 音訊輸出
User->>RVC: 上傳含人聲的歌曲
RVC->>UVR: 將人聲與音樂分離
UVR-->>RVC: 隔離的人聲軌道
RVC->>RVC: 套用 RMVPE 音高偵測
RVC->>Model: 提取 + 檢索特徵
Model-->>RVC: 轉換後的語音特徵
RVC->>RVC: VITS 重建
RVC-->>Output: 轉換後的音訊
Note over Output: 1 分鐘音訊約 3 秒處理RVC 的硬體需求是什麼?
| GPU | 即時延遲 | 訓練速度 | 品質 |
|---|---|---|---|
| RTX 4090(24 GB) | 20-30ms | 15 分鐘(10k 步) | 優秀 |
| RTX 3090(24 GB) | 25-35ms | 25 分鐘 | 優秀 |
| RTX 3060(12 GB) | 40-50ms | 45 分鐘 | 非常好 |
| GTX 1660(6 GB) | 60-80ms | 90 分鐘 | 良好 |
| 僅 CPU | 500-1000ms | 不建議 | 尚可 |
如何安裝與使用 RVC?
RVC WebUI 為 Windows 提供一鍵安裝程式,並為 Linux 與 macOS 提供手動安裝指南。網頁介面引導使用者完成整個工作流程:上傳訓練資料、預處理音訊(透過 UVR5)、提取特徵、訓練語音模型(可調整步數與學習率),以及使用可調參數(如音高偏移、共振峰保留與檢索強度)執行語音轉換。
常見問題
什麼是 RVC? RVC(基於檢索的語音轉換)是一個基於 VITS 的開源語音轉換框架,僅需 10 分鐘音訊資料即可訓練高品質語音模型。
需要多少訓練資料? 最低 5 分鐘,建議 10 分鐘,最佳 30+ 分鐘的乾淨人聲音訊以獲得高品質語音模型。
什麼是 RMVPE? RMVPE 是一個穩健的多尺度音高提取元件,專為歌唱語音轉換中的準確音高追蹤而設計。
什麼是 UVR5? UVR5(終極人聲去除器 5)是來源分離元件,在語音轉換前將人聲與背景音樂分離。
RVC 是否支援即時轉換? 是的,在高階 GPU(如 RTX 4090)上延遲為 20-30ms,適用於即時串流與即時語音變聲應用。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!