几十年来,要从混合录音中分离出单一乐器,要么需要原始录音室的多轨音源,要么得有经验丰富的音频工程师进行繁复的频谱编辑。AudioGhost AI 改写了这一工作流程,它将 Meta 先进的 SAM-Audio 模型带到桌面上,提供直观的图形界面,让任何人都能仅靠文本提示就完成声音分离。
由开源贡献者 0x0funky 开发,AudioGhost AI 是专为 Meta AI 的 SAM-Audio 研究模型打造的工具。SAM-Audio 将"分割一切"的理念——最初是为图像分割而开发——扩展到音频领域。原始的 SAM 模型可以点击图像中的任何像素来隔离该对象;SAM-Audio 则将同样的原理应用到声音上。描述您想分离的声源(“主唱”、“军鼓”、“木吉他”),模型就能以令人惊艳的保真度将其从混音中分离出来。
AudioGhost AI 特别值得注意的地方在于其可及性。消费级的音频分离工具历来需要云 API 订阅或强大的服务器级 GPU。AudioGhost AI 可在配备 4 到 6 GB VRAM 的 GPU 上流畅运行——这个范围涵盖了目前市面上的绝大多数消费级和游戏用 GPU。这让独立音乐人、播客制作者、视频编辑者和业余爱好者,即使没有高端计算资源,也能享有专业品质的音频分离。
AudioGhost AI 究竟是什么?为何要创建它?
AudioGhost AI 的创建是为了弥合 Meta 研究成果与实际日常使用之间的差距。Meta 以命令行推理脚本的形式发布了 SAM-Audio 研究模型,但没有提供用户友好的界面。0x0xfunky 创建了 AudioGhost AI,提供基于 Gradio 的图形界面,无需接触任何终端命令或 Python 推理代码。
这款工具在最好的意义上可谓专注:它专注于做好一件事——文本引导的面向对象音频分离——而不是试图成为一个完整的数字音频工作站。用户描述他们想提取的声音,在波形显示上调整感兴趣的区域,然后导出分离后的音轨。
graph LR
A[输入混合音频文件] --> B[AudioGhost AI GUI]
C[描述目标声音的文本提示] --> B
B --> D[SAM-Audio 推理引擎]
D --> E[分离出的声源]
D --> F[残留背景音频]
E --> G[导出 WAV/MP3]
F --> GSAM-Audio 的面向对象方法与传统声源分离有何不同?
传统的声源分离模型——例如 Demucs 或 Spleeter——是基于分类器的。它们经过训练可以识别特定类别(人声、鼓、贝斯、其他),并且只能输出那些预定义的分轨。如果您想隔离"只是踩镲"而不是整个鼓组,或者"左声道的节奏吉他"而不是所有吉他,这些模型就显得不够用了。
SAM-Audio 采用了根本不同的方法。它不是将声音分类到固定的类别中,而是使用以文本为条件的扩散模型,可以关注自然语言中描述的任何声音。这与 Meta 的 Segment Anything Model 背后的架构理念相同,但适用于频谱图领域而非像素领域。
| 分离方法 | 类别灵活性 | 输出质量 | VRAM 需求 | 图形界面 |
|---|---|---|---|---|
| AudioGhost AI + SAM-Audio | 无限(任何文本提示) | 高 | 4-6 GB | 有(Gradio) |
| Meta SAM-Audio (命令行) | 无限(任何文本提示) | 高 | 4-6 GB | 无(仅终端) |
| Demucs (混合式) | 固定(人声、鼓、贝斯、其他) | 非常高 | 2-4 GB | 仅第三方 |
| Spleeter | 固定(2/4/5 分轨) | 中等 | 1-2 GB | 仅第三方 |
| 云 API (Pyannote 等) | 依供应商而异 | 高 | 无(服务器端) | 有(网页) |
运行 AudioGhost AI 需要什么硬件?
AudioGhost AI 最强大的卖点之一是其适中的硬件需求。SAM-Audio 模型使用精简架构,在不需要大型音频基础模型所需 VRAM 的情况下,就能达到优秀的分离质量。
| GPU 型号 | VRAM | 预期性能 |
|---|---|---|
| NVIDIA GTX 1060 / 1070 | 6 GB / 8 GB | 完整推理,每段约 15-30 秒 |
| NVIDIA RTX 2060 / 3060 | 6 GB / 12 GB | 完整推理,CUDA 核心越多越快 |
| NVIDIA RTX 4060 / 4070 | 8 GB / 12 GB | 完整推理,近乎实时 |
| Apple M1/M2/M3 (Metal) | 8 GB+ 统一内存 | 通过 PyTorch MPS 后端支持 |
| 云 (RunPod, Colab 等) | 不适用 | 完整性能 |
该应用程序支持 CUDA(NVIDIA)、Metal Performance Shaders(Apple Silicon)以及仅 CPU 的备用模式,不过 CPU 路径明显较慢,建议仅用于短片段。
AudioGhost AI 的图形界面长什么样?如何使用?
AudioGhost AI 提供一个基于 Gradio 的简洁三面板界面,可通过浏览器在本地和远程使用:
- 左侧输入面板:上传音频文件(WAV、MP3、FLAC,最长可达数分钟),然后输入要分离的声音的文本描述。
- 中央可视化面板:波形显示搭配频谱叠加图。用户可以选择时间区域,将分离限制在音频的特定段落。
- 右侧输出面板:两个可下载的音频文件——分离后的声源以及残留的背景音频。
工作流程非常直观:上传、描述、选择区域、分离、导出。不需要配置文件、不需要命令行参数,也不需要 Python 脚本知识。
关于 AudioGhost AI 的常见问题
开始使用 AudioGhost AI
要在本地运行 AudioGhost AI,您需要 Python 3.10 或更新版本、兼容的 GPU(可选但建议),以及以下设置步骤:
- 从 github.com/0x0funky/audioghost-ai 克隆仓库
- 使用
pip install -r requirements.txt安装依赖项 - 使用
python app.py启动图形界面 - 在浏览器中打开提供的本地 URL
首次启动会自动下载 SAM-Audio 模型权重(约 2 GB)。后续启动会瞬间完成。
sequenceDiagram
participant User as 用户
participant GUI as AudioGhost GUI
participant Model as SAM-Audio 模型
participant Disk as 本地存储
User->>GUI: 上传音频文件
User->>GUI: 输入文本提示
GUI->>Model: 发送频谱图 + 文本嵌入
Model->>Model: 基于扩散的分离
Model-->>GUI: 返回分离后的波形
GUI-->>User: 显示结果 + 导出按钮
User->>GUI: 点击导出
GUI->>Disk: 保存 WAV/MP3 文件限制与当前开发状态
作为研究模型的封装工具,AudioGhost AI 继承了 SAM-Audio 本身的一些限制。当前版本在目标声源具有明显频谱特征的干净混音中表现最佳。非常密集的混音(带有大量混响或多种相似乐器,例如两把电吉他演奏相同的和弦进行)可能会产生伪影。由于注意力窗口的限制,模型每次推理的实际音频长度限制约为 3 到 5 分钟。
开发正在活跃进行中,社区正在贡献 Gradio 界面的改进、添加批量处理支持,并针对特定使用案例(如播客对话提取和现场录音清理)试验 SAM-Audio 的微调变体。
延伸阅读
- AudioGhost AI GitHub 仓库 — 源代码、安装指南和问题跟踪器
- Meta AI 的 SAM-Audio 论文 — 底层模型背后的研究出版物
- Meta SAM-Audio GitHub — 官方模型权重和命令行推理脚本
- Gradio 文档 — 用于图形界面的框架
- Demucs: Music Source Separation in the Waveform Domain — 替代的开源音频分离方法