AI

RVC WebUI:基於 VITS 的開源即時語音轉換

RVC 是一個基於 VITS 的易用語音轉換框架,僅需 10 分鐘語音資料即可訓練出良好模型,並支援即時轉換。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
RVC WebUI:基於 VITS 的開源即時語音轉換

RVC(基於檢索的語音轉換)WebUI 是由 RVC-Project 團隊開發的開源語音轉換框架,已成為口語與歌唱語境中 AI 語音轉換的標準工具。RVC 基於 VITS(變分推論文字轉語音)架構,以極少的訓練資料實現高品質語音轉換——僅需 10 分鐘音訊即可獲得令人信服的語音模型。

該專案透過其基於檢索的機制與傳統語音轉換方法區分開來。RVC 不需要配對資料(不同語音中的相同內容),而是使用特徵檢索方法,提取並轉移說話者特徵,同時保留來源音訊的語言內容。這使其在歌唱語音轉換中特別強大,因為在歌唱語音轉換中,保留音高、節奏與情感表達至關重要。

什麼是 RVC?語音轉換如何運作?

RVC 將音訊錄音中的語音從一個說話者轉換為另一個說話者,同時保留語言內容、節奏與情感傳遞。其過程包括從來源音訊中提取與說話者無關的內容特徵、從目標說話者的訓練模型中檢索相關語音特徵,以及使用目標語音特徵重建音訊。與 TTS 不同,語音轉換不需要文字輸入——它以音訊為輸入,輸出不同語音的音訊。

訓練需求

面向最低建議最佳
語音資料時長5 分鐘10 分鐘30+ 分鐘
音訊品質16kHz/16-bit44.1kHz/24-bit48kHz/24-bit
訓練步數10,00020,00050,000+
訓練時間(RTX 4090)15 分鐘30 分鐘1 小時

關鍵元件

RVC 的管線包含幾個專門的元件,它們協同運作以提供高品質的語音轉換。

元件功能技術細節
RMVPE音高提取針對歌唱語音的準確 F0 估計
UVR5來源分離從背景音樂中分離人聲
內容提取器提取內容特徵基於 HuBERT 的特徵提取
特徵檢索器匹配目標語音基於 KNN 的資料庫檢索
VITS 生成器重建音訊基於 VITS 的神經聲碼器

即時語音轉換如何運作?

RVC 支援即時語音轉換,在現代 GPU 上延遲低至 20-30ms。在即時模式下,音訊以小的重疊幀進行處理。內容提取器分析每個幀,特徵檢索器找到最匹配的目標特徵,VITS 生成器產生轉換後的輸出。這使得可以實現串流語音變聲器、即時口譯與互動式語音濾波器等即時應用。

什麼是 RMVPE 元件?

RMVPE(穩健多尺度語音音高估計)是歌唱語音轉換的關鍵元件。與在歌唱的寬廣音高範圍與快速變化中表現不佳的標準音高提取器不同,RMVPE 專門在歌唱資料上使用多尺度處理進行訓練,即使在複雜的人聲表演中也能準確追蹤音高。這使得 RVC 能夠在將音色改變為目標語音的同時保留歌手的原始旋律。

功能與能力

功能說明效能
語音轉換更改任何音訊錄音的語音接近即時(10 秒音訊約 500ms)
即時轉換即時語音變聲RTX 4090 上 20-30ms 延遲
歌唱語音保留音高的歌曲語音轉換優秀品質
跨語言跨語言語音轉換良好(受語言覆蓋限制)
批次處理一次轉換多個檔案可配置批次大小
音訊增強後處理濾波器與 EQ內建等化器

什麼是 UVR5?為什麼需要它?

UVR5(終極人聲去除器 5)是來源分離元件。當從歌曲中轉換語音時,UVR5 首先將人聲軌道與背景音樂分離。這種分離至關重要,因為語音轉換模型只需要處理語音訊號——處理混合音訊會引入音樂產生的偽影。UVR5 使用基於 Demucs 的深度學習模型,達到最先進的分離品質,在保留人聲品質的同時有效去除樂器伴奏。

RVC 的硬體需求是什麼?

GPU即時延遲訓練速度品質
RTX 4090(24 GB)20-30ms15 分鐘(10k 步)優秀
RTX 3090(24 GB)25-35ms25 分鐘優秀
RTX 3060(12 GB)40-50ms45 分鐘非常好
GTX 1660(6 GB)60-80ms90 分鐘良好
僅 CPU500-1000ms不建議尚可

如何安裝與使用 RVC?

RVC WebUI 為 Windows 提供一鍵安裝程式,並為 Linux 與 macOS 提供手動安裝指南。網頁介面引導使用者完成整個工作流程:上傳訓練資料、預處理音訊(透過 UVR5)、提取特徵、訓練語音模型(可調整步數與學習率),以及使用可調參數(如音高偏移、共振峰保留與檢索強度)執行語音轉換。

常見問題

什麼是 RVC? RVC(基於檢索的語音轉換)是一個基於 VITS 的開源語音轉換框架,僅需 10 分鐘音訊資料即可訓練高品質語音模型。

需要多少訓練資料? 最低 5 分鐘,建議 10 分鐘,最佳 30+ 分鐘的乾淨人聲音訊以獲得高品質語音模型。

什麼是 RMVPE? RMVPE 是一個穩健的多尺度音高提取元件,專為歌唱語音轉換中的準確音高追蹤而設計。

什麼是 UVR5? UVR5(終極人聲去除器 5)是來源分離元件,在語音轉換前將人聲與背景音樂分離。

RVC 是否支援即時轉換? 是的,在高階 GPU(如 RTX 4090)上延遲為 20-30ms,適用於即時串流與即時語音變聲應用。

延伸閱讀

TAG