從歌曲中移除人聲過去需要昂貴的 DAW 外掛程式、受過訓練的耳朵以及數小時的手動 EQ 工作。結果往往平庸——相位抵消偽影、模糊的器樂音軌,以及人聲的殘留部分。Ultimate Vocal Remover GUI (UVR) 透過將最先進的深度神經網路帶入音訊源分離,以一個免費、開源的套件徹底改變了這一切。
由開發者 Anjok07 和 aufr33 建立,UVR 已成長為 GitHub 上最受歡迎的開源音訊工具之一,擁有超過 24,000 顆星。它提供了一個圍繞多個 AI 分離引擎的精美圖形介面,使專業級的源分離對任何擁有電腦的人來說都易於使用。
使 UVR 與眾不同的是其 AI 引擎支援的廣度。UVR 不是將使用者鎖定在單一架構中,而是作為一個統一平台,讓您可以根據特定的分離需求在 Demucs、MDX-Net、VR、Roformer 等模型之間進行選擇。這種靈活性,加上透過應用程式內下載中心提供的定期模型更新,確保使用者始終能夠獲得源分離研究的最新進展。
UVR 支援哪些 AI 引擎?
UVR 的架構建立在一個可插拔的模型系統之上,支援多個 AI 後端,每個後端在不同分離任務中各有優勢。
| 引擎 | 架構 | 最適合 | 模型大小 |
|---|---|---|---|
| VR | Virtual Remedy CNN | 一般人聲移除 | 小 (50-200 MB) |
| MDX-Net | 混合頻譜圖/波形 | 高品質分軌分離 | 中 (200-500 MB) |
| Demucs v4 | 混合 Transformer/RNN | 完整音樂源分離(鼓、貝斯、人聲、其他) | 大 (500 MB - 1 GB) |
| Roformer | 基於 Transformer | 複雜混音、重疊頻率 | 中到大 |
| SCnet | 頻譜圖卷積 | 專門分離任務 | 可變 |
引擎的選擇取決於您的特定使用案例。Demucs v4 擅長多分軌分離(隔離鼓、貝斯和其他樂器以及人聲),而 MDX-Net(特別是 MDX23C 變體)則因其乾淨的人聲提取且偽影最少而受到青睞。
graph TD
A[輸入音訊檔] --> B{UVR 處理管線}
B --> C[VR 引擎<br>快速、輕量]
B --> D[MDX-Net 引擎<br>高品質分軌]
B --> E[Demucs v4 引擎<br>多分軌分離]
B --> F[Roformer 引擎<br>複雜混音]
C --> G[處理後輸出]
D --> G
E --> G
F --> G
G --> H[人聲 / 器樂 / 分軌]
G --> I[替代匯出格式<br>WAV, FLAC, MP3]UVR 需要什麼硬體?
雖然 UVR 理論上可以僅在 CPU 上執行,但 GPU 加速在處理速度上帶來了巨大的差異。該應用程式支援所有三大 GPU 生態系統。
| GPU 平台 | 支援的硬體 | 效能(3 分鐘歌曲) |
|---|---|---|
| NVIDIA CUDA | 所有配備 4GB+ VRAM 的 NVIDIA GPU | 30-60 秒 |
| AMD DirectML | Radeon RX 6000/7000 系列 | 1-3 分鐘 |
| Intel DirectML | Intel Arc A 系列 | 1-3 分鐘 |
| Apple MPS | M1/M2/M3/M4 系列 Mac | 1-2 分鐘 |
| 僅 CPU | 任何現代處理器 | 5-15 分鐘 |
UVR 的獨立安裝程式根據平台捆綁了附帶 CUDA、DirectML 或 MPS 支援的 PyTorch。Beta 版 Roformer 版本還透過新的架構擴展了模型支援,這些架構在具有挑戰性的素材上提供了改善的分離品質——特別是在多種樂器佔據重疊頻率範圍的密集混音中。
如何安裝和使用 UVR?
UVR 優先考慮易用性。獨立安裝程式——適用於 Windows、macOS 和 Linux——捆綁了所需的一切,包括 Python、PyTorch 和所有模型依賴項。無需手動設定或命令列設定。
安裝後,使用者透過應用程式內的下載中心下載模型,該中心為不同的分離任務提供精選的模型建議。介面呈現一個簡單的工作流程:載入音訊檔案、選擇模型、選擇輸出設定並處理。進階使用者可以調整參數,如片段大小、重疊和批次處理,以更精細地控制分離品質。
UVR 有哪些實際應用?
UVR 的功能超越了簡單的卡拉 OK 音軌製作。音樂製作人用它來提取分軌進行混音和取樣。播客編輯清理背景噪音並分離重疊的說話者。音訊檔案管理員透過隔離受損的頻率範圍來修復歷史錄音。研究人員在音樂學研究中分析各個樂器部分。DJ 為現場表演創建純器樂版本。支援的模型廣度意味著幾乎任何音訊分離任務都有適合的設定。
常見問題
什麼是 Ultimate Vocal Remover GUI (UVR)? Ultimate Vocal Remover GUI (UVR) 是一個免費的開源應用程式,使用深度神經網路從音樂中分離人聲並隔離個別樂器。它支援多種 AI 架構,包括 Demucs、MDX-Net、VR 和 Roformer 模型,並提供用於處理音訊檔案的圖形介面,具有最先進的源分離品質。
UVR 支援哪些 AI 引擎? UVR 支援多種用於音訊分離的 AI 架構:用於一般人聲移除的 VR (Virtual Remedy) 架構、用於高品質分軌分離的 MDX-Net(包括 MDX23C)、Meta 的 Demucs v1-v4 用於音樂源分離、用於改善複雜混音分離的 Roformer、用於專門分離任務的 SCnet,以及用於基於頻率的目標分離的 Bandit 模型。
UVR 需要 GPU 嗎? UVR 可以在 CPU 上執行,但強烈建議使用 GPU 加速以獲得合理的處理速度。它支援 NVIDIA CUDA(所有 NVIDIA GPU)、DirectML(AMD Radeon 和 Intel Arc GPU)以及 MPS(Apple Silicon Mac)。在現代 NVIDIA GPU 上,一首典型的 3 分鐘歌曲可以在 30-60 秒內處理完畢,而僅使用 CPU 的處理可能需要 5-15 分鐘。
如何安裝 UVR? UVR 為 Windows、macOS(包括 Intel 和 Apple Silicon)和 Linux 提供獨立安裝程式。這些安裝程式捆綁了 Python、PyTorch 和所有依賴項,因此無需手動設定。使用者只需下載其平台的安裝程式、執行它並啟動應用程式。模型可以從應用程式內的下載中心下載。
UVR 使用什麼授權? UVR 採用 MIT 授權條款,個人和商業使用皆免費。使用者可以在最小限制下修改、散佈和將軟體整合到自己的專案中。
延伸閱讀
- Ultimate Vocal Remover GUI GitHub 儲存庫 – 原始碼、發行版和社群討論
- UVR 發行版 – 最新版本下載和更新日誌
- Hugging Face 上的 UVR 模型儲存庫 – 社群維護的模型集合
- Demucs:Meta 的音樂源分離 – UVR 中捆綁的 Demucs 架構的參考實作