分割一切模型(SAM)透過實現基於提示的影像中任意物體分割,徹底改變了電腦視覺。SAM-Audio 將同樣的變革性能力帶到音訊領域,允許使用者使用自然語言描述從混合音訊中隔離特定聲音。與其說「去除人聲」,不如說「提取背景中彈奏的民謠吉他」。
SAM-Audio 是 Meta 的研究專案,將「分割一切」範式從視覺領域擴展到聽覺領域。該模型接收混合音訊訊號和文字提示,然後生成一個隔離所描述聲源的時頻遮罩。這與傳統的聲源分離有根本性的不同,後者操作在「人聲」或「鼓」等固定類別上。
這對音訊製作、聲學監測、聽力輔助和內容創作的影響是深遠的。音訊工程師可以從現場錄音中隔離特定樂器。野生動物研究人員可以從野外錄音中提取特定鳥類的叫聲。影片編輯器可以用自然語言描述來清理背景噪音。
SAM-Audio 如何運作?
SAM-Audio 的架構結合了多模態理解與音訊訊號處理。
graph TD
A[音訊混合\n輸入訊號] --> B[音訊編碼器\n頻譜圖特徵]
C[文字提示\n'隔離吉他聲'] --> D[文字編碼器\n語言嵌入]
B --> E[跨模態融合\n注意力機制]
D --> E
E --> F[遮罩解碼器\n時頻遮罩]
F --> G[套用遮罩]
G --> H[隔離聲音\n輸出音訊]
關鍵創新在於整合了跨模態注意力機制,將文字描述與音訊頻譜圖中的對應區域對齊,實現了對未明確訓練的聲音類別的零樣本泛化。
SAM-Audio 與傳統聲源分離的比較
基於提示的方法提供了與固定類別分離系統根本不同的能力。
| 特性 | 傳統聲源分離 | SAM-Audio |
|---|---|---|
| 目標類別 | 固定(人聲、鼓、貝斯等) | 任意(可文字提示) |
| 靈活性 | 限於訓練過的類別 | 透過語言無限擴展 |
| 訓練資料 | 標記的音訊混合 | 音訊 + 文字描述 |
| 已知類別準確度 | 較高(專門化) | 具競爭力 |
| 零樣本能力 | 無 | 有 |
| 使用場景特定性 | 一般音樂分離 | 目標聲音隔離 |
雖然傳統系統可能透過專門訓練在其固定類別上達到略高的準確度,但 SAM-Audio 的靈活性使其適用於更廣泛的使用場景。
SAM-Audio 支援哪些應用?
SAM-Audio 基於提示的特性開啟了跨多個領域的應用。
| 領域 | 應用 | 範例提示 |
|---|---|---|
| 音樂製作 | 樂器隔離 | “提取鋼琴旋律” |
| 音訊後期製作 | 噪音去除 | “去除交通噪音” |
| 野生動物監測 | 特定物種提取 | “隔離貓頭鷹叫聲” |
| 語音處理 | 說話者日誌化 | “提取女性的聲音” |
| 醫療音訊 | 診斷聲音隔離 | “隔離心臟雜音” |
| 鑑識科學 | 證據增強 | “提取腳步聲” |
每個應用都受益於能夠以自然語言描述目標聲音,而非受限於預先定義的類別。
SAM-Audio 的技術要求
運行 SAM-Audio 需要合理的 GPU 配置,儘管最佳化仍在進行中。
| 要求 | 最低 | 建議 |
|---|---|---|
| GPU 記憶體 | 8GB VRAM | 16GB+ VRAM |
| GPU 類型 | NVIDIA T4/V100 | NVIDIA A100 或更高 |
| Python 版本 | 3.9+ | 3.10+ |
| PyTorch 版本 | 2.0+ | 2.1+ |
| 音訊格式 | WAV 16kHz 單聲道 | WAV 16kHz 單聲道 |
| 推理時間 | 數秒 | 接近即時(使用 GPU) |
該模型設計為使用標準深度學習硬體的研究人員和從業者都能使用,遵循 Meta 發布功能強大的開源 AI 模型的傳統。
常見問題
什麼是 SAM-Audio? SAM-Audio 是 Meta 的開源模型,將「分割一切」方法擴展到音訊領域,實現基於提示的音訊分割和隔離。
SAM-Audio 與傳統聲源分離有何不同? 傳統分離使用固定類別,而 SAM-Audio 可透過文字提示隔離任意聲音類型。
SAM-Audio 使用什麼架構? 它結合了音訊編碼器、文字編碼器和遮罩解碼器,使用跨模態注意力機制。
SAM-Audio 支援哪些應用? 音樂製作、音訊後期製作、野生動物監測、語音處理和醫療音訊等。
如何使用 SAM-Audio? 以開源程式碼形式提供,載入模型、提供音訊檔案和文字提示即可。
延伸閱讀
- SAM-Audio GitHub 儲存庫 – 原始碼、模型和文件
- 分割一切論文 (ArXiv) – 啟發音訊擴展的原始 SAM 論文
- Meta AI 分割一切部落格 – 分割一切方法概述
- 音訊源分離指南 – 聲源分離技術的學術概述
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!