AI

SAM-Audio:Meta 的音訊分割一切模型

SAM-Audio 將 Meta 的「分割一切」方法擴展到音訊領域,透過提示驅動的音訊編輯實現文字引導的聲音分割和隔離。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
SAM-Audio:Meta 的音訊分割一切模型

分割一切模型(SAM)透過實現基於提示的影像中任意物體分割,徹底改變了電腦視覺。SAM-Audio 將同樣的變革性能力帶到音訊領域,允許使用者使用自然語言描述從混合音訊中隔離特定聲音。與其說「去除人聲」,不如說「提取背景中彈奏的民謠吉他」。

SAM-Audio 是 Meta 的研究專案,將「分割一切」範式從視覺領域擴展到聽覺領域。該模型接收混合音訊訊號和文字提示,然後生成一個隔離所描述聲源的時頻遮罩。這與傳統的聲源分離有根本性的不同,後者操作在「人聲」或「鼓」等固定類別上。

這對音訊製作、聲學監測、聽力輔助和內容創作的影響是深遠的。音訊工程師可以從現場錄音中隔離特定樂器。野生動物研究人員可以從野外錄音中提取特定鳥類的叫聲。影片編輯器可以用自然語言描述來清理背景噪音。


SAM-Audio 如何運作?

SAM-Audio 的架構結合了多模態理解與音訊訊號處理。

graph TD
    A[音訊混合\n輸入訊號] --> B[音訊編碼器\n頻譜圖特徵]
    C[文字提示\n'隔離吉他聲'] --> D[文字編碼器\n語言嵌入]
    B --> E[跨模態融合\n注意力機制]
    D --> E
    E --> F[遮罩解碼器\n時頻遮罩]
    F --> G[套用遮罩]
    G --> H[隔離聲音\n輸出音訊]

關鍵創新在於整合了跨模態注意力機制,將文字描述與音訊頻譜圖中的對應區域對齊,實現了對未明確訓練的聲音類別的零樣本泛化。


SAM-Audio 與傳統聲源分離的比較

基於提示的方法提供了與固定類別分離系統根本不同的能力。

特性傳統聲源分離SAM-Audio
目標類別固定(人聲、鼓、貝斯等)任意(可文字提示)
靈活性限於訓練過的類別透過語言無限擴展
訓練資料標記的音訊混合音訊 + 文字描述
已知類別準確度較高(專門化)具競爭力
零樣本能力
使用場景特定性一般音樂分離目標聲音隔離

雖然傳統系統可能透過專門訓練在其固定類別上達到略高的準確度,但 SAM-Audio 的靈活性使其適用於更廣泛的使用場景。


SAM-Audio 支援哪些應用?

SAM-Audio 基於提示的特性開啟了跨多個領域的應用。

領域應用範例提示
音樂製作樂器隔離“提取鋼琴旋律”
音訊後期製作噪音去除“去除交通噪音”
野生動物監測特定物種提取“隔離貓頭鷹叫聲”
語音處理說話者日誌化“提取女性的聲音”
醫療音訊診斷聲音隔離“隔離心臟雜音”
鑑識科學證據增強“提取腳步聲”

每個應用都受益於能夠以自然語言描述目標聲音,而非受限於預先定義的類別。


SAM-Audio 的技術要求

運行 SAM-Audio 需要合理的 GPU 配置,儘管最佳化仍在進行中。

要求最低建議
GPU 記憶體8GB VRAM16GB+ VRAM
GPU 類型NVIDIA T4/V100NVIDIA A100 或更高
Python 版本3.9+3.10+
PyTorch 版本2.0+2.1+
音訊格式WAV 16kHz 單聲道WAV 16kHz 單聲道
推理時間數秒接近即時(使用 GPU)

該模型設計為使用標準深度學習硬體的研究人員和從業者都能使用,遵循 Meta 發布功能強大的開源 AI 模型的傳統。


常見問題

什麼是 SAM-Audio? SAM-Audio 是 Meta 的開源模型,將「分割一切」方法擴展到音訊領域,實現基於提示的音訊分割和隔離。

SAM-Audio 與傳統聲源分離有何不同? 傳統分離使用固定類別,而 SAM-Audio 可透過文字提示隔離任意聲音類型。

SAM-Audio 使用什麼架構? 它結合了音訊編碼器、文字編碼器和遮罩解碼器,使用跨模態注意力機制。

SAM-Audio 支援哪些應用? 音樂製作、音訊後期製作、野生動物監測、語音處理和醫療音訊等。

如何使用 SAM-Audio? 以開源程式碼形式提供,載入模型、提供音訊檔案和文字提示即可。


延伸閱讀

TAG