RVC WebUI：基於 VITS 的開源即時語音轉換

RVC 是一個基於 VITS 的易用語音轉換框架，僅需 10 分鐘語音資料即可訓練出良好模型，並支援即時轉換。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 03, 2026 閱讀 10 分鐘

RVC（基於檢索的語音轉換）WebUI 是由 RVC-Project 團隊開發的開源語音轉換框架，已成為口語與歌唱語境中 AI 語音轉換的標準工具。RVC 基於 VITS（變分推論文字轉語音）架構，以極少的訓練資料實現高品質語音轉換——僅需 10 分鐘音訊即可獲得令人信服的語音模型。

該專案透過其基於檢索的機制與傳統語音轉換方法區分開來。RVC 不需要配對資料（不同語音中的相同內容），而是使用特徵檢索方法，提取並轉移說話者特徵，同時保留來源音訊的語言內容。這使其在歌唱語音轉換中特別強大，因為在歌唱語音轉換中，保留音高、節奏與情感表達至關重要。

什麼是 RVC？語音轉換如何運作？

RVC 將音訊錄音中的語音從一個說話者轉換為另一個說話者，同時保留語言內容、節奏與情感傳遞。其過程包括從來源音訊中提取與說話者無關的內容特徵、從目標說話者的訓練模型中檢索相關語音特徵，以及使用目標語音特徵重建音訊。與 TTS 不同，語音轉換不需要文字輸入——它以音訊為輸入，輸出不同語音的音訊。

訓練需求

面向	最低	建議	最佳
語音資料時長	5 分鐘	10 分鐘	30+ 分鐘
音訊品質	16kHz/16-bit	44.1kHz/24-bit	48kHz/24-bit
訓練步數	10,000	20,000	50,000+
訓練時間（RTX 4090）	15 分鐘	30 分鐘	1 小時

關鍵元件

RVC 的管線包含幾個專門的元件，它們協同運作以提供高品質的語音轉換。

元件	功能	技術細節
RMVPE	音高提取	針對歌唱語音的準確 F0 估計
UVR5	來源分離	從背景音樂中分離人聲
內容提取器	提取內容特徵	基於 HuBERT 的特徵提取
特徵檢索器	匹配目標語音	基於 KNN 的資料庫檢索
VITS 生成器	重建音訊	基於 VITS 的神經聲碼器

即時語音轉換如何運作？

RVC 支援即時語音轉換，在現代 GPU 上延遲低至 20-30ms。在即時模式下，音訊以小的重疊幀進行處理。內容提取器分析每個幀，特徵檢索器找到最匹配的目標特徵，VITS 生成器產生轉換後的輸出。這使得可以實現串流語音變聲器、即時口譯與互動式語音濾波器等即時應用。

flowchart LR
    A[來源音訊輸入] --> B[UVR5 來源分離]
    B --> C[人聲軌道]
    C --> D[RMVPE 音高提取]
    C --> E[內容提取器（HuBERT）]
    D --> F[音高特徵]
    E --> G[內容特徵]
    G --> H[特徵檢索器（KNN）]
    H --> I[匹配的目標特徵]
    F --> J[VITS 生成器]
    I --> J
    J --> K[轉換後的音訊輸出]

什麼是 RMVPE 元件？

RMVPE（穩健多尺度語音音高估計）是歌唱語音轉換的關鍵元件。與在歌唱的寬廣音高範圍與快速變化中表現不佳的標準音高提取器不同，RMVPE 專門在歌唱資料上使用多尺度處理進行訓練，即使在複雜的人聲表演中也能準確追蹤音高。這使得 RVC 能夠在將音色改變為目標語音的同時保留歌手的原始旋律。

功能與能力

功能	說明	效能
語音轉換	更改任何音訊錄音的語音	接近即時（10 秒音訊約 500ms）
即時轉換	即時語音變聲	RTX 4090 上 20-30ms 延遲
歌唱語音	保留音高的歌曲語音轉換	優秀品質
跨語言	跨語言語音轉換	良好（受語言覆蓋限制）
批次處理	一次轉換多個檔案	可配置批次大小
音訊增強	後處理濾波器與 EQ	內建等化器

什麼是 UVR5？為什麼需要它？

UVR5（終極人聲去除器 5）是來源分離元件。當從歌曲中轉換語音時，UVR5 首先將人聲軌道與背景音樂分離。這種分離至關重要，因為語音轉換模型只需要處理語音訊號——處理混合音訊會引入音樂產生的偽影。UVR5 使用基於 Demucs 的深度學習模型，達到最先進的分離品質，在保留人聲品質的同時有效去除樂器伴奏。

sequenceDiagram
    participant User as 使用者
    participant RVC as RVC WebUI
    participant UVR as UVR5 分離器
    participant Model as 語音模型
    participant Output as 音訊輸出

    User->>RVC: 上傳含人聲的歌曲
    RVC->>UVR: 將人聲與音樂分離
    UVR-->>RVC: 隔離的人聲軌道
    RVC->>RVC: 套用 RMVPE 音高偵測
    RVC->>Model: 提取 + 檢索特徵
    Model-->>RVC: 轉換後的語音特徵
    RVC->>RVC: VITS 重建
    RVC-->>Output: 轉換後的音訊
    Note over Output: 1 分鐘音訊約 3 秒處理

RVC 的硬體需求是什麼？

GPU	即時延遲	訓練速度	品質
RTX 4090（24 GB）	20-30ms	15 分鐘（10k 步）	優秀
RTX 3090（24 GB）	25-35ms	25 分鐘	優秀
RTX 3060（12 GB）	40-50ms	45 分鐘	非常好
GTX 1660（6 GB）	60-80ms	90 分鐘	良好
僅 CPU	500-1000ms	不建議	尚可

如何安裝與使用 RVC？

RVC WebUI 為 Windows 提供一鍵安裝程式，並為 Linux 與 macOS 提供手動安裝指南。網頁介面引導使用者完成整個工作流程：上傳訓練資料、預處理音訊（透過 UVR5）、提取特徵、訓練語音模型（可調整步數與學習率），以及使用可調參數（如音高偏移、共振峰保留與檢索強度）執行語音轉換。

常見問題

什麼是 RVC？ RVC（基於檢索的語音轉換）是一個基於 VITS 的開源語音轉換框架，僅需 10 分鐘音訊資料即可訓練高品質語音模型。

需要多少訓練資料？ 最低 5 分鐘，建議 10 分鐘，最佳 30+ 分鐘的乾淨人聲音訊以獲得高品質語音模型。

什麼是 RMVPE？ RMVPE 是一個穩健的多尺度音高提取元件，專為歌唱語音轉換中的準確音高追蹤而設計。

什麼是 UVR5？ UVR5（終極人聲去除器 5）是來源分離元件，在語音轉換前將人聲與背景音樂分離。

RVC 是否支援即時轉換？ 是的，在高階 GPU（如 RTX 4090）上延遲為 20-30ms，適用於即時串流與即時語音變聲應用。

RVC WebUI：基於 VITS 的開源即時語音轉換

什麼是 RVC？語音轉換如何運作？

訓練需求

關鍵元件

即時語音轉換如何運作？

什麼是 RMVPE 元件？

功能與能力

什麼是 UVR5？為什麼需要它？

RVC 的硬體需求是什麼？

如何安裝與使用 RVC？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

RVC WebUI：基於 VITS 的開源即時語音轉換

什麼是 RVC？語音轉換如何運作？

訓練需求

關鍵元件

即時語音轉換如何運作？

什麼是 RMVPE 元件？

功能與能力

什麼是 UVR5？為什麼需要它？

RVC 的硬體需求是什麼？

如何安裝與使用 RVC？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲 凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險