从歌曲中移除人声过去需要昂贵的 DAW 插件、受过训练的耳朵以及数小时的手动 EQ 工作。结果往往平庸——相位抵消伪影、模糊的器乐音轨,以及人声的残留部分。Ultimate Vocal Remover GUI (UVR) 通过将最先进的深度神经网络带入音频源分离,以一个免费、开源的包彻底改变了这一切。
由开发者 Anjok07 和 aufr33 创建,UVR 已成为 GitHub 上最受欢迎的开源音频工具之一,拥有超过 24,000 颗星。它提供了一个围绕多个 AI 分离引擎的精美图形界面,使专业级的源分离对任何拥有计算机的人来说都易于使用。
使 UVR 与众不同的是其 AI 引擎支持的广度。UVR 不是将用户锁定在单一架构中,而是作为一个统一平台,让您可以根据特定的分离需求在 Demucs、MDX-Net、VR、Roformer 等模型之间进行选择。这种灵活性,加上通过应用程序内下载中心提供的定期模型更新,确保用户始终能够获得源分离研究的最新进展。
UVR 支持哪些 AI 引擎?
UVR 的架构建立在一个可插拔的模型系统之上,支持多个 AI 后端,每个后端在不同分离任务中各有优势。
| 引擎 | 架构 | 最适合 | 模型大小 |
|---|---|---|---|
| VR | Virtual Remedy CNN | 普通人声移除 | 小 (50-200 MB) |
| MDX-Net | 混合频谱图/波形 | 高质量分轨分离 | 中 (200-500 MB) |
| Demucs v4 | 混合 Transformer/RNN | 完整音乐源分离(鼓、贝斯、人声、其他) | 大 (500 MB - 1 GB) |
| Roformer | 基于 Transformer | 复杂混音、重叠频率 | 中到大 |
| SCnet | 频谱图卷积 | 专门分离任务 | 可变 |
引擎的选择取决于您的特定使用场景。Demucs v4 擅长多分轨分离(隔离鼓、贝斯和其他乐器以及人声),而 MDX-Net(特别是 MDX23C 变体)则因其干净的人声提取且伪影最少而受到青睐。
graph TD
A[输入音频文件] --> B{UVR 处理管线}
B --> C[VR 引擎<br>快速、轻量]
B --> D[MDX-Net 引擎<br>高质量分轨]
B --> E[Demucs v4 引擎<br>多分轨分离]
B --> F[Roformer 引擎<br>复杂混音]
C --> G[处理后输出]
D --> G
E --> G
F --> G
G --> H[人声 / 器乐 / 分轨]
G --> I[替代导出格式<br>WAV, FLAC, MP3]UVR 需要什么硬件?
虽然 UVR 理论上可以仅在 CPU 上运行,但 GPU 加速在处理速度上带来了巨大的差异。该应用程序支持所有三大 GPU 生态系统。
| GPU 平台 | 支持的硬件 | 性能(3 分钟歌曲) |
|---|---|---|
| NVIDIA CUDA | 所有配备 4GB+ VRAM 的 NVIDIA GPU | 30-60 秒 |
| AMD DirectML | Radeon RX 6000/7000 系列 | 1-3 分钟 |
| Intel DirectML | Intel Arc A 系列 | 1-3 分钟 |
| Apple MPS | M1/M2/M3/M4 系列 Mac | 1-2 分钟 |
| 仅 CPU | 任何现代处理器 | 5-15 分钟 |
UVR 的独立安装程序根据平台捆绑了附带 CUDA、DirectML 或 MPS 支持的 PyTorch。Beta 版 Roformer 版本还通过新的架构扩展了模型支持,这些架构在具有挑战性的素材上提供了改进的分离质量——特别是在多种乐器占据重叠频率范围的密集混音中。
如何安装和使用 UVR?
UVR 优先考虑易用性。独立安装程序——适用于 Windows、macOS 和 Linux——捆绑了所需的一切,包括 Python、PyTorch 和所有模型依赖项。无需手动设置或命令行配置。
安装后,用户通过应用程序内的下载中心下载模型,该中心为不同的分离任务提供精选的模型推荐。界面呈现一个简单的工作流:加载音频文件、选择模型、选择输出设置并处理。高级用户可以调整参数,如片段大小、重叠和批量处理,以更精细地控制分离质量。
UVR 有哪些实际应用?
UVR 的功能超越了简单的卡拉 OK 音轨制作。音乐制作人用它来提取分轨进行混音和采样。播客编辑清理背景噪音并分离重叠的说话者。音频档案管理员通过隔离受损的频率范围来修复历史录音。研究人员在音乐学研究中分析各个乐器部分。DJ 为现场表演创建纯器乐版本。支持的模型广度意味着几乎任何音频分离任务都有适合的配置。
常见问题
什么是 Ultimate Vocal Remover GUI (UVR)? Ultimate Vocal Remover GUI (UVR) 是一个免费的开源应用程序,使用深度神经网络从音乐中分离人声并隔离个别乐器。它支持多种 AI 架构,包括 Demucs、MDX-Net、VR 和 Roformer 模型,并提供用于处理音频文件的图形界面,具有最先进的源分离质量。
UVR 支持哪些 AI 引擎? UVR 支持多种用于音频分离的 AI 架构:用于普通人声移除的 VR (Virtual Remedy) 架构、用于高质量分轨分离的 MDX-Net(包括 MDX23C)、Meta 的 Demucs v1-v4 用于音乐源分离、用于改善复杂混音分离的 Roformer、用于专门分离任务的 SCnet,以及用于基于频率的目标分离的 Bandit 模型。
UVR 需要 GPU 吗? UVR 可以在 CPU 上运行,但强烈建议使用 GPU 加速以获得合理的处理速度。它支持 NVIDIA CUDA(所有 NVIDIA GPU)、DirectML(AMD Radeon 和 Intel Arc GPU)以及 MPS(Apple Silicon Mac)。在现代 NVIDIA GPU 上,一首典型的 3 分钟歌曲可以在 30-60 秒内处理完毕,而仅使用 CPU 的处理可能需要 5-15 分钟。
如何安装 UVR? UVR 为 Windows、macOS(包括 Intel 和 Apple Silicon)和 Linux 提供独立安装程序。这些安装程序捆绑了 Python、PyTorch 和所有依赖项,因此无需手动设置。用户只需下载其平台的安装程序、运行它并启动应用程序。模型可以从应用程序内的下载中心下载。
UVR 使用什么许可证? UVR 采用 MIT 许可证,个人和商业使用皆免费。用户可以在最小限制下修改、分发和将软件集成到自己的项目中。
延伸阅读
- Ultimate Vocal Remover GUI GitHub 仓库 – 源代码、发布版和社区讨论
- UVR 发布版 – 最新版本下载和更新日志
- Hugging Face 上的 UVR 模型仓库 – 社区维护的模型集合
- Demucs:Meta 的音乐源分离 – UVR 中捆绑的 Demucs 架构的参考实现