"什么是 AudioGhost AI？"

"AudioGhost AI 是由开发者 0x0funky 创建的开源图形界面应用程序，它封装了 Meta 的 SAM-Audio 模型，用于面向对象的音频分离。用户可以通过自然语言提示，从混合音频中隔离特定声源。"

"AudioGhost AI 是如何工作的？"

"它使用 Meta 的 SAM-Audio 模型，该模型结合了 Segment Anything (SAM) 架构与音频理解能力。用户以文本提示描述想要隔离的声音，模型便将其从背景中分离出来。图形界面提供波形可视化功能，可用于选择区域。"

"AudioGhost AI 需要多少 VRAM？"

"AudioGhost AI 可在 4 到 6 GB VRAM 的消费级 GPU 上运行，支持中端消费级硬件，例如 NVIDIA GTX 1060、RTX 2060、RTX 3060 以及类似规格的显卡。"

"AudioGhost AI 提供哪些图形界面功能？"

"该应用程序提供基于 Gradio 的图形界面，包含波形与频谱可视化、文本提示输入框、区域选择工具，以及一键导出分离音轨的功能。"

"AudioGhost AI 采用什么许可证？"

"AudioGhost AI 采用 MIT 许可证，允许在个人和商业项目中自由使用、修改和分发。"

AudioGhost AI：使用 Meta SAM-Audio 的开源面向对象音频分离工具

AudioGhost AI 将 Meta 的 SAM-Audio 模型封装在易用的图形界面中，支持文本提示音频分离，可在 4-6GB VRAM 的消费级 GPU 上运行。

技术编辑团队 May 02, 2026 阅读 12 分钟

几十年来，要从混合录音中分离出单一乐器，要么需要原始录音室的多轨音源，要么得有经验丰富的音频工程师进行繁复的频谱编辑。AudioGhost AI 改写了这一工作流程，它将 Meta 先进的 SAM-Audio 模型带到桌面上，提供直观的图形界面，让任何人都能仅靠文本提示就完成声音分离。

由开源贡献者 0x0funky 开发，AudioGhost AI 是专为 Meta AI 的 SAM-Audio 研究模型打造的工具。SAM-Audio 将"分割一切"的理念——最初是为图像分割而开发——扩展到音频领域。原始的 SAM 模型可以点击图像中的任何像素来隔离该对象；SAM-Audio 则将同样的原理应用到声音上。描述您想分离的声源（“主唱”、“军鼓”、“木吉他”），模型就能以令人惊艳的保真度将其从混音中分离出来。

AudioGhost AI 特别值得注意的地方在于其可及性。消费级的音频分离工具历来需要云 API 订阅或强大的服务器级 GPU。AudioGhost AI 可在配备 4 到 6 GB VRAM 的 GPU 上流畅运行——这个范围涵盖了目前市面上的绝大多数消费级和游戏用 GPU。这让独立音乐人、播客制作者、视频编辑者和业余爱好者，即使没有高端计算资源，也能享有专业品质的音频分离。

AudioGhost AI 究竟是什么？为何要创建它？

AudioGhost AI 的创建是为了弥合 Meta 研究成果与实际日常使用之间的差距。Meta 以命令行推理脚本的形式发布了 SAM-Audio 研究模型，但没有提供用户友好的界面。0x0xfunky 创建了 AudioGhost AI，提供基于 Gradio 的图形界面，无需接触任何终端命令或 Python 推理代码。

这款工具在最好的意义上可谓专注：它专注于做好一件事——文本引导的面向对象音频分离——而不是试图成为一个完整的数字音频工作站。用户描述他们想提取的声音，在波形显示上调整感兴趣的区域，然后导出分离后的音轨。

graph LR
    A[输入混合音频文件] --> B[AudioGhost AI GUI]
    C[描述目标声音的文本提示] --> B
    B --> D[SAM-Audio 推理引擎]
    D --> E[分离出的声源]
    D --> F[残留背景音频]
    E --> G[导出 WAV/MP3]
    F --> G

SAM-Audio 的面向对象方法与传统声源分离有何不同？

传统的声源分离模型——例如 Demucs 或 Spleeter——是基于分类器的。它们经过训练可以识别特定类别（人声、鼓、贝斯、其他），并且只能输出那些预定义的分轨。如果您想隔离"只是踩镲"而不是整个鼓组，或者"左声道的节奏吉他"而不是所有吉他，这些模型就显得不够用了。

SAM-Audio 采用了根本不同的方法。它不是将声音分类到固定的类别中，而是使用以文本为条件的扩散模型，可以关注自然语言中描述的任何声音。这与 Meta 的 Segment Anything Model 背后的架构理念相同，但适用于频谱图领域而非像素领域。

分离方法	类别灵活性	输出质量	VRAM 需求	图形界面
AudioGhost AI + SAM-Audio	无限（任何文本提示）	高	4-6 GB	有（Gradio）
Meta SAM-Audio (命令行)	无限（任何文本提示）	高	4-6 GB	无（仅终端）
Demucs (混合式)	固定（人声、鼓、贝斯、其他）	非常高	2-4 GB	仅第三方
Spleeter	固定（2/4/5 分轨）	中等	1-2 GB	仅第三方
云 API (Pyannote 等)	依供应商而异	高	无（服务器端）	有（网页）

运行 AudioGhost AI 需要什么硬件？

AudioGhost AI 最强大的卖点之一是其适中的硬件需求。SAM-Audio 模型使用精简架构，在不需要大型音频基础模型所需 VRAM 的情况下，就能达到优秀的分离质量。

GPU 型号	VRAM	预期性能
NVIDIA GTX 1060 / 1070	6 GB / 8 GB	完整推理，每段约 15-30 秒
NVIDIA RTX 2060 / 3060	6 GB / 12 GB	完整推理，CUDA 核心越多越快
NVIDIA RTX 4060 / 4070	8 GB / 12 GB	完整推理，近乎实时
Apple M1/M2/M3 (Metal)	8 GB+ 统一内存	通过 PyTorch MPS 后端支持
云 (RunPod, Colab 等)	不适用	完整性能

该应用程序支持 CUDA（NVIDIA）、Metal Performance Shaders（Apple Silicon）以及仅 CPU 的备用模式，不过 CPU 路径明显较慢，建议仅用于短片段。

AudioGhost AI 的图形界面长什么样？如何使用？

AudioGhost AI 提供一个基于 Gradio 的简洁三面板界面，可通过浏览器在本地和远程使用：

左侧输入面板：上传音频文件（WAV、MP3、FLAC，最长可达数分钟），然后输入要分离的声音的文本描述。
中央可视化面板：波形显示搭配频谱叠加图。用户可以选择时间区域，将分离限制在音频的特定段落。
右侧输出面板：两个可下载的音频文件——分离后的声源以及残留的背景音频。

工作流程非常直观：上传、描述、选择区域、分离、导出。不需要配置文件、不需要命令行参数，也不需要 Python 脚本知识。

关于 AudioGhost AI 的常见问题

开始使用 AudioGhost AI

要在本地运行 AudioGhost AI，您需要 Python 3.10 或更新版本、兼容的 GPU（可选但建议），以及以下设置步骤：

从 github.com/0x0funky/audioghost-ai 克隆仓库
使用 pip install -r requirements.txt 安装依赖项
使用 python app.py 启动图形界面
在浏览器中打开提供的本地 URL

首次启动会自动下载 SAM-Audio 模型权重（约 2 GB）。后续启动会瞬间完成。

sequenceDiagram
    participant User as 用户
    participant GUI as AudioGhost GUI
    participant Model as SAM-Audio 模型
    participant Disk as 本地存储

    User->>GUI: 上传音频文件
    User->>GUI: 输入文本提示
    GUI->>Model: 发送频谱图 + 文本嵌入
    Model->>Model: 基于扩散的分离
    Model-->>GUI: 返回分离后的波形
    GUI-->>User: 显示结果 + 导出按钮
    User->>GUI: 点击导出
    GUI->>Disk: 保存 WAV/MP3 文件

限制与当前开发状态

作为研究模型的封装工具，AudioGhost AI 继承了 SAM-Audio 本身的一些限制。当前版本在目标声源具有明显频谱特征的干净混音中表现最佳。非常密集的混音（带有大量混响或多种相似乐器，例如两把电吉他演奏相同的和弦进行）可能会产生伪影。由于注意力窗口的限制，模型每次推理的实际音频长度限制约为 3 到 5 分钟。

开发正在活跃进行中，社区正在贡献 Gradio 界面的改进、添加批量处理支持，并针对特定使用案例（如播客对话提取和现场录音清理）试验 SAM-Audio 的微调变体。

AudioGhost AI：使用 Meta SAM-Audio 的开源面向对象音频分离工具

AudioGhost AI 究竟是什么？为何要创建它？

SAM-Audio 的面向对象方法与传统声源分离有何不同？

运行 AudioGhost AI 需要什么硬件？

AudioGhost AI 的图形界面长什么样？如何使用？

关于 AudioGhost AI 的常见问题

开始使用 AudioGhost AI

限制与当前开发状态

延伸阅读

LATEST POST

Easy Dataset：用于合成 LLM 微调数据的开源框架

CopilotKit：用于构建应用内 AI Copilot 的开源前端堆栈

ComfyUI：最强大的开源扩散模型 GUI，采用节点式工作流程

TAG

CATEGORIES