AI

SAM-Audio:Meta 的音频分割一切模型

SAM-Audio 将 Meta 的「分割一切」方法扩展到音频领域,通过提示驱动的音频编辑实现文本引导的声音分割和隔离。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
SAM-Audio:Meta 的音频分割一切模型

SAM-Audio 将 Segment Anything Model 的变革性能力带到音频领域。

graph TD
    A[音频混合\n输入信号] --> B[音频编码器\n频谱图特征]
    C[文本提示\n'隔离吉他声'] --> D[文本编码器\n语言嵌入]
    B --> E[跨模态融合\n注意力机制]
    D --> E
    E --> F[掩码解码器\n时频掩码]
    F --> G[应用掩码]
    G --> H[隔离声音\n输出音频]
特性传统声源分离SAM-Audio
目标类别固定(人声、鼓、贝斯等)任意(可文本提示)
灵活性限于训练过的类别通过语言无限扩展
零样本能力
领域应用示例提示
音乐制作乐器隔离“提取钢琴旋律”
音频后期制作噪音去除“去除交通噪音”
野生动物监测特定物种提取“隔离猫头鹰叫声”
要求最低建议
GPU 内存8GB VRAM16GB+ VRAM
Python 版本3.9+3.10+
推理时间数秒接近实时(使用 GPU)

常见问题

什么是 SAM-Audio? Meta 的开源模型,将「分割一切」方法扩展到音频领域,实现基于提示的音频分割和隔离。

与传统的声源分离有何不同? 传统分离使用固定类别,而 SAM-Audio 可通过文本提示隔离任意声音类型。

使用什么架构? 结合音频编码器、文本编码器和掩码解码器。

支持哪些应用? 音乐制作、音频后期制作、野生动物监测等。

如何使用? 以开源代码形式提供,加载模型并提供音频文件和文本提示即可。


延伸阅读

TAG
CATEGORIES