"SAM-Audio 与传统的声源分离有何不同？"

"传统的声源分离（如 Spleeter、Demucs）将音频分为固定类别，如人声、鼓、贝斯等。SAM-Audio 是基于提示的，这意味着它可以隔离以自然语言文本描述的任何声音类型。这种灵活性使其能够处理训练期间未见过的新的声音类别。"

"SAM-Audio 使用什么架构？"

"SAM-Audio 建立在音频-语言多模态学习范式之上，结合了音频编码器、文本编码器和掩码解码器。文本编码器处理自然语言提示，音频编码器处理输入混合信号，掩码解码器为目标声音生成时频掩码。该模型在配对的音频-文本数据上进行训练，并有分割监督。"

"SAM-Audio 支持哪些应用？"

"SAM-Audio 支持广泛的音频编辑和分析应用：音乐制作（隔离个别乐器）、音频后期制作（去除不需要的噪音）、声学监测（提取特定动物声音）、语音增强（隔离特定说话者）以及音频内容分析（检测和隔离声音事件）。"

"如何使用 SAM-Audio？"

"SAM-Audio 以带有预训练模型的开源代码形式提供。使用方式通常包括加载模型、提供音频文件和文本提示，然后生成隔离的音频。仓库提供了推理脚本和常见音频处理工作流程的集成示例。"

SAM-Audio：Meta 的音频分割一切模型

Q: "什么是 SAM-Audio？"

"SAM-Audio（音频分割一切模型）是 Meta 的开源模型，将「分割一切」方法从计算机视觉扩展到音频领域。它实现了基于提示的音频分割和隔离，允许用户使用「提取吉他声」或「隔离鸟叫声」等文本描述从混合音频中提取特定声音。"

SAM-Audio 将 Meta 的「分割一切」方法扩展到音频领域，通过提示驱动的音频编辑实现文本引导的声音分割和隔离。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 05, 2026 阅读 4 分钟

SAM-Audio 将 Segment Anything Model 的变革性能力带到音频领域。

graph TD
    A[音频混合\n输入信号] --> B[音频编码器\n频谱图特征]
    C[文本提示\n'隔离吉他声'] --> D[文本编码器\n语言嵌入]
    B --> E[跨模态融合\n注意力机制]
    D --> E
    E --> F[掩码解码器\n时频掩码]
    F --> G[应用掩码]
    G --> H[隔离声音\n输出音频]

特性	传统声源分离	SAM-Audio
目标类别	固定（人声、鼓、贝斯等）	任意（可文本提示）
灵活性	限于训练过的类别	通过语言无限扩展
零样本能力	无	有

领域	应用	示例提示
音乐制作	乐器隔离	“提取钢琴旋律”
音频后期制作	噪音去除	“去除交通噪音”
野生动物监测	特定物种提取	“隔离猫头鹰叫声”

要求	最低	建议
GPU 内存	8GB VRAM	16GB+ VRAM
Python 版本	3.9+	3.10+
推理时间	数秒	接近实时（使用 GPU）

常见问题

什么是 SAM-Audio？ Meta 的开源模型，将「分割一切」方法扩展到音频领域，实现基于提示的音频分割和隔离。

与传统的声源分离有何不同？ 传统分离使用固定类别，而 SAM-Audio 可通过文本提示隔离任意声音类型。

使用什么架构？ 结合音频编码器、文本编码器和掩码解码器。

支持哪些应用？ 音乐制作、音频后期制作、野生动物监测等。

如何使用？ 以开源代码形式提供，加载模型并提供音频文件和文本提示即可。

SAM-Audio：Meta 的音频分割一切模型

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

SAM-Audio：Meta 的音频分割一切模型

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险