AI

AudioGhost AI:使用 Meta SAM-Audio 的开源面向对象音频分离工具

AudioGhost AI 将 Meta 的 SAM-Audio 模型封装在易用的图形界面中,支持文本提示音频分离,可在 4-6GB VRAM 的消费级 GPU 上运行。

AudioGhost AI:使用 Meta SAM-Audio 的开源面向对象音频分离工具

几十年来,要从混合录音中分离出单一乐器,要么需要原始录音室的多轨音源,要么得有经验丰富的音频工程师进行繁复的频谱编辑。AudioGhost AI 改写了这一工作流程,它将 Meta 先进的 SAM-Audio 模型带到桌面上,提供直观的图形界面,让任何人都能仅靠文本提示就完成声音分离。

由开源贡献者 0x0funky 开发,AudioGhost AI 是专为 Meta AI 的 SAM-Audio 研究模型打造的工具。SAM-Audio 将"分割一切"的理念——最初是为图像分割而开发——扩展到音频领域。原始的 SAM 模型可以点击图像中的任何像素来隔离该对象;SAM-Audio 则将同样的原理应用到声音上。描述您想分离的声源(“主唱”、“军鼓”、“木吉他”),模型就能以令人惊艳的保真度将其从混音中分离出来。

AudioGhost AI 特别值得注意的地方在于其可及性。消费级的音频分离工具历来需要云 API 订阅或强大的服务器级 GPU。AudioGhost AI 可在配备 4 到 6 GB VRAM 的 GPU 上流畅运行——这个范围涵盖了目前市面上的绝大多数消费级和游戏用 GPU。这让独立音乐人、播客制作者、视频编辑者和业余爱好者,即使没有高端计算资源,也能享有专业品质的音频分离。


AudioGhost AI 究竟是什么?为何要创建它?

AudioGhost AI 的创建是为了弥合 Meta 研究成果与实际日常使用之间的差距。Meta 以命令行推理脚本的形式发布了 SAM-Audio 研究模型,但没有提供用户友好的界面。0x0xfunky 创建了 AudioGhost AI,提供基于 Gradio 的图形界面,无需接触任何终端命令或 Python 推理代码。

这款工具在最好的意义上可谓专注:它专注于做好一件事——文本引导的面向对象音频分离——而不是试图成为一个完整的数字音频工作站。用户描述他们想提取的声音,在波形显示上调整感兴趣的区域,然后导出分离后的音轨。


SAM-Audio 的面向对象方法与传统声源分离有何不同?

传统的声源分离模型——例如 Demucs 或 Spleeter——是基于分类器的。它们经过训练可以识别特定类别(人声、鼓、贝斯、其他),并且只能输出那些预定义的分轨。如果您想隔离"只是踩镲"而不是整个鼓组,或者"左声道的节奏吉他"而不是所有吉他,这些模型就显得不够用了。

SAM-Audio 采用了根本不同的方法。它不是将声音分类到固定的类别中,而是使用以文本为条件的扩散模型,可以关注自然语言中描述的任何声音。这与 Meta 的 Segment Anything Model 背后的架构理念相同,但适用于频谱图领域而非像素领域。

分离方法类别灵活性输出质量VRAM 需求图形界面
AudioGhost AI + SAM-Audio无限(任何文本提示)4-6 GB有(Gradio)
Meta SAM-Audio (命令行)无限(任何文本提示)4-6 GB无(仅终端)
Demucs (混合式)固定(人声、鼓、贝斯、其他)非常高2-4 GB仅第三方
Spleeter固定(2/4/5 分轨)中等1-2 GB仅第三方
云 API (Pyannote 等)依供应商而异无(服务器端)有(网页)

运行 AudioGhost AI 需要什么硬件?

AudioGhost AI 最强大的卖点之一是其适中的硬件需求。SAM-Audio 模型使用精简架构,在不需要大型音频基础模型所需 VRAM 的情况下,就能达到优秀的分离质量。

GPU 型号VRAM预期性能
NVIDIA GTX 1060 / 10706 GB / 8 GB完整推理,每段约 15-30 秒
NVIDIA RTX 2060 / 30606 GB / 12 GB完整推理,CUDA 核心越多越快
NVIDIA RTX 4060 / 40708 GB / 12 GB完整推理,近乎实时
Apple M1/M2/M3 (Metal)8 GB+ 统一内存通过 PyTorch MPS 后端支持
云 (RunPod, Colab 等)不适用完整性能

该应用程序支持 CUDA(NVIDIA)、Metal Performance Shaders(Apple Silicon)以及仅 CPU 的备用模式,不过 CPU 路径明显较慢,建议仅用于短片段。


AudioGhost AI 的图形界面长什么样?如何使用?

AudioGhost AI 提供一个基于 Gradio 的简洁三面板界面,可通过浏览器在本地和远程使用:

  1. 左侧输入面板:上传音频文件(WAV、MP3、FLAC,最长可达数分钟),然后输入要分离的声音的文本描述。
  2. 中央可视化面板:波形显示搭配频谱叠加图。用户可以选择时间区域,将分离限制在音频的特定段落。
  3. 右侧输出面板:两个可下载的音频文件——分离后的声源以及残留的背景音频。

工作流程非常直观:上传、描述、选择区域、分离、导出。不需要配置文件、不需要命令行参数,也不需要 Python 脚本知识。


关于 AudioGhost AI 的常见问题


开始使用 AudioGhost AI

要在本地运行 AudioGhost AI,您需要 Python 3.10 或更新版本、兼容的 GPU(可选但建议),以及以下设置步骤:

  1. github.com/0x0funky/audioghost-ai 克隆仓库
  2. 使用 pip install -r requirements.txt 安装依赖项
  3. 使用 python app.py 启动图形界面
  4. 在浏览器中打开提供的本地 URL

首次启动会自动下载 SAM-Audio 模型权重(约 2 GB)。后续启动会瞬间完成。


限制与当前开发状态

作为研究模型的封装工具,AudioGhost AI 继承了 SAM-Audio 本身的一些限制。当前版本在目标声源具有明显频谱特征的干净混音中表现最佳。非常密集的混音(带有大量混响或多种相似乐器,例如两把电吉他演奏相同的和弦进行)可能会产生伪影。由于注意力窗口的限制,模型每次推理的实际音频长度限制约为 3 到 5 分钟。

开发正在活跃进行中,社区正在贡献 Gradio 界面的改进、添加批量处理支持,并针对特定使用案例(如播客对话提取和现场录音清理)试验 SAM-Audio 的微调变体。


延伸阅读

TAG
CATEGORIES