AI

AudioGhost AI:使用 Meta SAM-Audio 的開源物件導向音訊分離工具

AudioGhost AI 將 Meta 的 SAM-Audio 模型包裝在易用的圖形介面中,支援文字提示音訊分離,可在 4-6GB VRAM 的消費級 GPU 上執行。

AudioGhost AI:使用 Meta SAM-Audio 的開源物件導向音訊分離工具

幾十年來,要從混合錄音中分離出單一樂器,要不是需要原始錄音室的多軌音源,就是得有經驗豐富的音訊工程師進行繁複的頻譜編輯。AudioGhost AI 改寫了這項工作流程,它將 Meta 先進的 SAM-Audio 模型帶到桌面上,提供直觀的圖形介面,讓任何人都能只靠文字提示就完成聲音分離。

由開源貢獻者 0x0funky 所開發,AudioGhost AI 是專為 Meta AI 的 SAM-Audio 研究模型所打造的工具。SAM-Audio 將「分割任何東西」的理念 —— 最初是為影像分割而開發 —— 擴展到音訊領域。原始的 SAM 模型可以點選影像中的任何像素來隔離該物件;SAM-Audio 則將同樣的原理應用到聲音上。描述您想分離的音源(「主唱」、「小鼓」、「木吉他」),模型就能以令人驚艷的 fidelity 將其從混音中隔離出來。

AudioGhost AI 特別值得注意的地方在於它的可及性。消費級的音訊分離工具歷來需要雲端 API 訂閱或強大的伺服器級 GPU。AudioGhost AI 可在配備 4 到 6 GB VRAM 的 GPU 上流暢執行 —— 這個範圍涵蓋了目前市面上的絕大多數消費級和遊戲用 GPU。這讓獨立音樂人、播客製作者、影片編輯者和業餘愛好者,即使沒有高階運算資源,也能享有專業品質的音訊分離。


AudioGhost AI 究竟是什麼?為何要建立它?

AudioGhost AI 的建立是為了彌合 Meta 研究成果與實際日常使用之間的差距。Meta 以命令列推理腳本的形式發佈了 SAM-Audio 研究模型,但沒有提供使用者友善的介面。0x0xfunky 建立了 AudioGhost AI,提供基於 Gradio 的圖形介面,無需接觸任何終端機命令或 Python 推理程式碼。

這款工具在最好的意義上可謂專注:它專注於做好一件事 —— 文字引導的物件導向音訊分離 —— 而不是試圖成為一個完整的數位音訊工作站。使用者描述他們想提取的聲音,在波形顯示上調整感興趣的區域,然後匯出分離後的音軌。


SAM-Audio 的物件導向方法與傳統音源分離有何不同?

傳統的音源分離模型 —— 例如 Demucs 或 Spleeter —— 是基於分類器的。它們經過訓練可以識別特定類別(人聲、鼓、貝斯、其他),而且只能輸出那些預先定義的分軌。如果您想隔離「只是 hi-hat」而不是整個鼓組,或者「左聲道的節奏吉他」而不是所有吉他,這些模型就顯得不夠用了。

SAM-Audio 採用了根本不同的方法。它不是將聲音分類到固定的類別中,而是使用以文字為條件的擴散模型,可以關注自然語言中描述的任何聲音。這與 Meta 的 Segment Anything Model 背後的架構理念相同,但適用於頻譜圖領域而非像素領域。

分離方法類別靈活性輸出品質VRAM 需求圖形介面
AudioGhost AI + SAM-Audio無限(任何文字提示)4-6 GB有(Gradio)
Meta SAM-Audio (命令列)無限(任何文字提示)4-6 GB無(僅終端機)
Demucs (混合式)固定(人聲、鼓、貝斯、其他)非常高2-4 GB僅第三方
Spleeter固定(2/4/5 分軌)中等1-2 GB僅第三方
雲端 API (Pyannote 等)依供應商而異無(伺服器端)有(網頁)

執行 AudioGhost AI 需要什麼硬體?

AudioGhost AI 最強大的賣點之一是其適中的硬體需求。SAM-Audio 模型使用精簡架構,在不需要大型音訊基礎模型所需 VRAM 的情況下,就能達成優異的分離品質。

GPU 型號VRAM預期效能
NVIDIA GTX 1060 / 10706 GB / 8 GB完整推理,每段約 15-30 秒
NVIDIA RTX 2060 / 30606 GB / 12 GB完整推理,CUDA 核心越多越快
NVIDIA RTX 4060 / 40708 GB / 12 GB完整推理,近乎即時
Apple M1/M2/M3 (Metal)8 GB+ 統一記憶體透過 PyTorch MPS 後端支援
雲端 (RunPod, Colab 等)不適用完整效能

該應用程式支援 CUDA(NVIDIA)、Metal Performance Shaders(Apple Silicon)以及僅 CPU 的備援模式,不過 CPU 路徑明顯較慢,建議僅用於短片段。


AudioGhost AI 的圖形介面長什麼樣子?如何使用?

AudioGhost AI 提供一個基於 Gradio 的簡潔三面板介面,可透過瀏覽器在本地端和遠端使用:

  1. 左側輸入面板:上傳音訊檔案(WAV、MP3、FLAC,最長可達數分鐘),然後輸入要分離的聲音的文字描述。
  2. 中央視覺化面板:波形顯示搭配頻譜疊加圖。使用者可以選取時間區域,將分離限制在音訊的特定段落。
  3. 右側輸出面板:兩個可下載的音訊檔案 —— 分離後的音源以及殘留的背景音訊。

工作流程非常直觀:上傳、描述、選取區域、分離、匯出。不需要設定檔、不需要命令列參數,也不需要 Python 腳本知識。


關於 AudioGhost AI 的常見問題


開始使用 AudioGhost AI

要在本地端執行 AudioGhost AI,您需要 Python 3.10 或更新版本、相容的 GPU(可選但建議),以及以下設定步驟:

  1. github.com/0x0funky/audioghost-ai 克隆儲存庫
  2. 使用 pip install -r requirements.txt 安裝依賴項
  3. 使用 python app.py 啟動圖形介面
  4. 在瀏覽器中開啟提供的本地 URL

首次啟動會自動下載 SAM-Audio 模型權重(約 2 GB)。後續啟動會瞬間完成。


限制與當前開發狀態

作為研究模型的包裝工具,AudioGhost AI 繼承了 SAM-Audio 本身的一些限制。當前版本在目標音源具有明顯頻譜特徵的乾淨混音中表現最佳。非常密集的混音(帶有大量殘響或多種相似樂器,例如兩把電吉他演奏相同的和弦進行)可能會產生 artifacts。由於注意力機制的限制,模型每次推理的實際音訊長度限制約為 3 到 5 分鐘。

開發正在活躍進行中,社群正在貢獻 Gradio 介面的改進、新增批次處理支援,並針對特定使用案例(如播客對話提取和現場錄音清理)試驗 SAM-Audio 的微調變體。


延伸閱讀

TAG