SAM-Audio：Meta 的音訊分割一切模型

Q: "什麼是 SAM-Audio？"

"SAM-Audio（音訊分割一切模型）是 Meta 的開源模型，將「分割一切」方法從電腦視覺擴展到音訊領域。它實現了基於提示的音訊分割和隔離，允許使用者使用「提取吉他聲」或「隔離鳥叫聲」等文字描述從混合音訊中提取特定聲音。"

Q: "SAM-Audio 與傳統聲源分離有何不同？"

"傳統聲源分離（如 Spleeter、Demucs）將音訊分為固定類別，如人聲、鼓、貝斯等。SAM-Audio 是基於提示的，這意味著它可以隔離以自然語言文字描述的任何聲音類型。這種靈活性使其能夠處理訓練期間未見過的新型聲音類別。"

Q: "SAM-Audio 使用什麼架構？"

"SAM-Audio 建立在音訊-語言多模態學習範式之上，結合了音訊編碼器、文字編碼器和遮罩解碼器。文字編碼器處理自然語言提示，音訊編碼器處理輸入混合訊號，遮罩解碼器為目標聲音生成時頻遮罩。該模型在配對的音訊-文字資料上進行訓練，並有分割監督。"

Q: "SAM-Audio 支援哪些應用？"

"SAM-Audio 支援廣泛的音訊編輯和分析應用：音樂製作（隔離個別樂器）、音訊後期製作（去除不需要的噪音）、聲學監測（提取特定動物聲音）、語音增強（隔離特定說話者）以及音訊內容分析（偵測和隔離聲音事件）。"

Q: "如何使用 SAM-Audio？"

"SAM-Audio 以帶有預訓練模型的開源程式碼形式提供。使用方式通常包括載入模型、提供音訊檔案和文字提示，然後生成隔離的音訊。儲存庫提供了推理腳本和常見音訊處理工作流程的整合範例。"

SAM-Audio 將 Meta 的「分割一切」方法擴展到音訊領域，透過提示驅動的音訊編輯實現文字引導的聲音分割和隔離。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 05, 2026 閱讀 8 分鐘

分割一切模型（SAM）透過實現基於提示的影像中任意物體分割，徹底改變了電腦視覺。SAM-Audio 將同樣的變革性能力帶到音訊領域，允許使用者使用自然語言描述從混合音訊中隔離特定聲音。與其說「去除人聲」，不如說「提取背景中彈奏的民謠吉他」。

SAM-Audio 是 Meta 的研究專案，將「分割一切」範式從視覺領域擴展到聽覺領域。該模型接收混合音訊訊號和文字提示，然後生成一個隔離所描述聲源的時頻遮罩。這與傳統的聲源分離有根本性的不同，後者操作在「人聲」或「鼓」等固定類別上。

這對音訊製作、聲學監測、聽力輔助和內容創作的影響是深遠的。音訊工程師可以從現場錄音中隔離特定樂器。野生動物研究人員可以從野外錄音中提取特定鳥類的叫聲。影片編輯器可以用自然語言描述來清理背景噪音。

SAM-Audio 如何運作？

SAM-Audio 的架構結合了多模態理解與音訊訊號處理。

graph TD
    A[音訊混合\n輸入訊號] --> B[音訊編碼器\n頻譜圖特徵]
    C[文字提示\n'隔離吉他聲'] --> D[文字編碼器\n語言嵌入]
    B --> E[跨模態融合\n注意力機制]
    D --> E
    E --> F[遮罩解碼器\n時頻遮罩]
    F --> G[套用遮罩]
    G --> H[隔離聲音\n輸出音訊]

關鍵創新在於整合了跨模態注意力機制，將文字描述與音訊頻譜圖中的對應區域對齊，實現了對未明確訓練的聲音類別的零樣本泛化。

SAM-Audio 與傳統聲源分離的比較

基於提示的方法提供了與固定類別分離系統根本不同的能力。

特性	傳統聲源分離	SAM-Audio
目標類別	固定（人聲、鼓、貝斯等）	任意（可文字提示）
靈活性	限於訓練過的類別	透過語言無限擴展
訓練資料	標記的音訊混合	音訊 + 文字描述
已知類別準確度	較高（專門化）	具競爭力
零樣本能力	無	有
使用場景特定性	一般音樂分離	目標聲音隔離

雖然傳統系統可能透過專門訓練在其固定類別上達到略高的準確度，但 SAM-Audio 的靈活性使其適用於更廣泛的使用場景。

SAM-Audio 支援哪些應用？

SAM-Audio 基於提示的特性開啟了跨多個領域的應用。

領域	應用	範例提示
音樂製作	樂器隔離	“提取鋼琴旋律”
音訊後期製作	噪音去除	“去除交通噪音”
野生動物監測	特定物種提取	“隔離貓頭鷹叫聲”
語音處理	說話者日誌化	“提取女性的聲音”
醫療音訊	診斷聲音隔離	“隔離心臟雜音”
鑑識科學	證據增強	“提取腳步聲”

每個應用都受益於能夠以自然語言描述目標聲音，而非受限於預先定義的類別。

SAM-Audio 的技術要求

運行 SAM-Audio 需要合理的 GPU 配置，儘管最佳化仍在進行中。

要求	最低	建議
GPU 記憶體	8GB VRAM	16GB+ VRAM
GPU 類型	NVIDIA T4/V100	NVIDIA A100 或更高
Python 版本	3.9+	3.10+
PyTorch 版本	2.0+	2.1+
音訊格式	WAV 16kHz 單聲道	WAV 16kHz 單聲道
推理時間	數秒	接近即時（使用 GPU）

該模型設計為使用標準深度學習硬體的研究人員和從業者都能使用，遵循 Meta 發布功能強大的開源 AI 模型的傳統。

常見問題

什麼是 SAM-Audio？ SAM-Audio 是 Meta 的開源模型，將「分割一切」方法擴展到音訊領域，實現基於提示的音訊分割和隔離。

SAM-Audio 與傳統聲源分離有何不同？ 傳統分離使用固定類別，而 SAM-Audio 可透過文字提示隔離任意聲音類型。

SAM-Audio 使用什麼架構？ 它結合了音訊編碼器、文字編碼器和遮罩解碼器，使用跨模態注意力機制。

SAM-Audio 支援哪些應用？ 音樂製作、音訊後期製作、野生動物監測、語音處理和醫療音訊等。

如何使用 SAM-Audio？ 以開源程式碼形式提供，載入模型、提供音訊檔案和文字提示即可。

SAM-Audio：Meta 的音訊分割一切模型

SAM-Audio 如何運作？

SAM-Audio 與傳統聲源分離的比較

SAM-Audio 支援哪些應用？

SAM-Audio 的技術要求

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

SAM-Audio：Meta 的音訊分割一切模型

SAM-Audio 如何運作？

SAM-Audio 與傳統聲源分離的比較

SAM-Audio 支援哪些應用？

SAM-Audio 的技術要求

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲 凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險