SAM-Audio 将 Segment Anything Model 的变革性能力带到音频领域。
graph TD
A[音频混合\n输入信号] --> B[音频编码器\n频谱图特征]
C[文本提示\n'隔离吉他声'] --> D[文本编码器\n语言嵌入]
B --> E[跨模态融合\n注意力机制]
D --> E
E --> F[掩码解码器\n时频掩码]
F --> G[应用掩码]
G --> H[隔离声音\n输出音频]
| 特性 | 传统声源分离 | SAM-Audio |
|---|---|---|
| 目标类别 | 固定(人声、鼓、贝斯等) | 任意(可文本提示) |
| 灵活性 | 限于训练过的类别 | 通过语言无限扩展 |
| 零样本能力 | 无 | 有 |
| 领域 | 应用 | 示例提示 |
|---|---|---|
| 音乐制作 | 乐器隔离 | “提取钢琴旋律” |
| 音频后期制作 | 噪音去除 | “去除交通噪音” |
| 野生动物监测 | 特定物种提取 | “隔离猫头鹰叫声” |
| 要求 | 最低 | 建议 |
|---|---|---|
| GPU 内存 | 8GB VRAM | 16GB+ VRAM |
| Python 版本 | 3.9+ | 3.10+ |
| 推理时间 | 数秒 | 接近实时(使用 GPU) |
常见问题
什么是 SAM-Audio? Meta 的开源模型,将「分割一切」方法扩展到音频领域,实现基于提示的音频分割和隔离。
与传统的声源分离有何不同? 传统分离使用固定类别,而 SAM-Audio 可通过文本提示隔离任意声音类型。
使用什么架构? 结合音频编码器、文本编码器和掩码解码器。
支持哪些应用? 音乐制作、音频后期制作、野生动物监测等。
如何使用? 以开源代码形式提供,加载模型并提供音频文件和文本提示即可。
延伸阅读
- SAM-Audio GitHub 仓库 – 源代码、模型和文档
- 分割一切论文 (ArXiv) – 启发音频扩展的原始 SAM 论文
- Meta AI 分割一切博客 – 分割一切方法概述
- 音频源分离指南 – 声源分离技术的学术概述
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!