"什麼是 AudioGhost AI？"

"AudioGhost AI 是由開發者 0x0funky 建立的開源圖形介面應用程式，它包裝了 Meta 的 SAM-Audio 模型，用於物件導向的音訊分離。使用者可以透過自然語言提示，從混合音訊中隔離特定音源。"

"AudioGhost AI 是如何運作的？"

"它使用 Meta 的 SAM-Audio 模型，該模型結合了 Segment Anything (SAM) 架構與音訊理解能力。使用者以文字提示描述想要隔離的聲音，模型便會將其從背景中分離出來。圖形介面提供波形視覺化功能，可用於選取區域。"

"AudioGhost AI 需要多少 VRAM？"

"AudioGhost AI 可在 4 到 6 GB VRAM 的消費級 GPU 上執行，支援中階消費級硬體，例如 NVIDIA GTX 1060、RTX 2060、RTX 3060 以及類似規格的顯示卡。"

"AudioGhost AI 提供哪些圖形介面功能？"

"該應用程式提供基於 Gradio 的圖形介面，包含波形與頻譜視覺化、文字提示輸入框、區域選取工具，以及一鍵匯出分離音軌的功能。"

"AudioGhost AI 採用什麼授權條款？"

"AudioGhost AI 採用 MIT 授權條款，允許在個人和商業專案中自由使用、修改和散佈。"

AudioGhost AI：使用 Meta SAM-Audio 的開源物件導向音訊分離工具

AudioGhost AI 將 Meta 的 SAM-Audio 模型包裝在易用的圖形介面中，支援文字提示音訊分離，可在 4-6GB VRAM 的消費級 GPU 上執行。

技術編輯團隊 May 02, 2026 閱讀 11 分鐘

幾十年來，要從混合錄音中分離出單一樂器，要不是需要原始錄音室的多軌音源，就是得有經驗豐富的音訊工程師進行繁複的頻譜編輯。AudioGhost AI 改寫了這項工作流程，它將 Meta 先進的 SAM-Audio 模型帶到桌面上，提供直觀的圖形介面，讓任何人都能只靠文字提示就完成聲音分離。

由開源貢獻者 0x0funky 所開發，AudioGhost AI 是專為 Meta AI 的 SAM-Audio 研究模型所打造的工具。SAM-Audio 將「分割任何東西」的理念 —— 最初是為影像分割而開發 —— 擴展到音訊領域。原始的 SAM 模型可以點選影像中的任何像素來隔離該物件；SAM-Audio 則將同樣的原理應用到聲音上。描述您想分離的音源（「主唱」、「小鼓」、「木吉他」），模型就能以令人驚艷的 fidelity 將其從混音中隔離出來。

AudioGhost AI 特別值得注意的地方在於它的可及性。消費級的音訊分離工具歷來需要雲端 API 訂閱或強大的伺服器級 GPU。AudioGhost AI 可在配備 4 到 6 GB VRAM 的 GPU 上流暢執行 —— 這個範圍涵蓋了目前市面上的絕大多數消費級和遊戲用 GPU。這讓獨立音樂人、播客製作者、影片編輯者和業餘愛好者，即使沒有高階運算資源，也能享有專業品質的音訊分離。

AudioGhost AI 究竟是什麼？為何要建立它？

AudioGhost AI 的建立是為了彌合 Meta 研究成果與實際日常使用之間的差距。Meta 以命令列推理腳本的形式發佈了 SAM-Audio 研究模型，但沒有提供使用者友善的介面。0x0xfunky 建立了 AudioGhost AI，提供基於 Gradio 的圖形介面，無需接觸任何終端機命令或 Python 推理程式碼。

這款工具在最好的意義上可謂專注：它專注於做好一件事 —— 文字引導的物件導向音訊分離 —— 而不是試圖成為一個完整的數位音訊工作站。使用者描述他們想提取的聲音，在波形顯示上調整感興趣的區域，然後匯出分離後的音軌。

graph LR
    A[輸入混合音訊檔] --> B[AudioGhost AI 介面]
    C[描述目標音效的文字提示] --> B
    B --> D[SAM-Audio 推理引擎]
    D --> E[分離出的音源]
    D --> F[殘留背景音訊]
    E --> G[匯出 WAV/MP3]
    F --> G

SAM-Audio 的物件導向方法與傳統音源分離有何不同？

傳統的音源分離模型 —— 例如 Demucs 或 Spleeter —— 是基於分類器的。它們經過訓練可以識別特定類別（人聲、鼓、貝斯、其他），而且只能輸出那些預先定義的分軌。如果您想隔離「只是 hi-hat」而不是整個鼓組，或者「左聲道的節奏吉他」而不是所有吉他，這些模型就顯得不夠用了。

SAM-Audio 採用了根本不同的方法。它不是將聲音分類到固定的類別中，而是使用以文字為條件的擴散模型，可以關注自然語言中描述的任何聲音。這與 Meta 的 Segment Anything Model 背後的架構理念相同，但適用於頻譜圖領域而非像素領域。

分離方法	類別靈活性	輸出品質	VRAM 需求	圖形介面
AudioGhost AI + SAM-Audio	無限（任何文字提示）	高	4-6 GB	有（Gradio）
Meta SAM-Audio (命令列)	無限（任何文字提示）	高	4-6 GB	無（僅終端機）
Demucs (混合式)	固定（人聲、鼓、貝斯、其他）	非常高	2-4 GB	僅第三方
Spleeter	固定（2/4/5 分軌）	中等	1-2 GB	僅第三方
雲端 API (Pyannote 等)	依供應商而異	高	無（伺服器端）	有（網頁）

執行 AudioGhost AI 需要什麼硬體？

AudioGhost AI 最強大的賣點之一是其適中的硬體需求。SAM-Audio 模型使用精簡架構，在不需要大型音訊基礎模型所需 VRAM 的情況下，就能達成優異的分離品質。

GPU 型號	VRAM	預期效能
NVIDIA GTX 1060 / 1070	6 GB / 8 GB	完整推理，每段約 15-30 秒
NVIDIA RTX 2060 / 3060	6 GB / 12 GB	完整推理，CUDA 核心越多越快
NVIDIA RTX 4060 / 4070	8 GB / 12 GB	完整推理，近乎即時
Apple M1/M2/M3 (Metal)	8 GB+ 統一記憶體	透過 PyTorch MPS 後端支援
雲端 (RunPod, Colab 等)	不適用	完整效能

該應用程式支援 CUDA（NVIDIA）、Metal Performance Shaders（Apple Silicon）以及僅 CPU 的備援模式，不過 CPU 路徑明顯較慢，建議僅用於短片段。

AudioGhost AI 的圖形介面長什麼樣子？如何使用？

AudioGhost AI 提供一個基於 Gradio 的簡潔三面板介面，可透過瀏覽器在本地端和遠端使用：

左側輸入面板：上傳音訊檔案（WAV、MP3、FLAC，最長可達數分鐘），然後輸入要分離的聲音的文字描述。
中央視覺化面板：波形顯示搭配頻譜疊加圖。使用者可以選取時間區域，將分離限制在音訊的特定段落。
右側輸出面板：兩個可下載的音訊檔案 —— 分離後的音源以及殘留的背景音訊。

工作流程非常直觀：上傳、描述、選取區域、分離、匯出。不需要設定檔、不需要命令列參數，也不需要 Python 腳本知識。

關於 AudioGhost AI 的常見問題

開始使用 AudioGhost AI

要在本地端執行 AudioGhost AI，您需要 Python 3.10 或更新版本、相容的 GPU（可選但建議），以及以下設定步驟：

從 github.com/0x0funky/audioghost-ai 克隆儲存庫
使用 pip install -r requirements.txt 安裝依賴項
使用 python app.py 啟動圖形介面
在瀏覽器中開啟提供的本地 URL

首次啟動會自動下載 SAM-Audio 模型權重（約 2 GB）。後續啟動會瞬間完成。

sequenceDiagram
    participant User as 使用者
    participant GUI as AudioGhost 介面
    participant Model as SAM-Audio 模型
    participant Disk as 本地儲存

    User->>GUI: 上傳音訊檔案
    User->>GUI: 輸入文字提示
    GUI->>Model: 傳送頻譜圖 + 文字嵌入
    Model->>Model: 基於擴散的分離
    Model-->>GUI: 回傳分離後的波形
    GUI-->>User: 顯示結果 + 匯出按鈕
    User->>GUI: 點擊匯出
    GUI->>Disk: 儲存 WAV/MP3 檔案

限制與當前開發狀態

作為研究模型的包裝工具，AudioGhost AI 繼承了 SAM-Audio 本身的一些限制。當前版本在目標音源具有明顯頻譜特徵的乾淨混音中表現最佳。非常密集的混音（帶有大量殘響或多種相似樂器，例如兩把電吉他演奏相同的和弦進行）可能會產生 artifacts。由於注意力機制的限制，模型每次推理的實際音訊長度限制約為 3 到 5 分鐘。

開發正在活躍進行中，社群正在貢獻 Gradio 介面的改進、新增批次處理支援，並針對特定使用案例（如播客對話提取和現場錄音清理）試驗 SAM-Audio 的微調變體。

AudioGhost AI：使用 Meta SAM-Audio 的開源物件導向音訊分離工具

AudioGhost AI 究竟是什麼？為何要建立它？

SAM-Audio 的物件導向方法與傳統音源分離有何不同？

執行 AudioGhost AI 需要什麼硬體？

AudioGhost AI 的圖形介面長什麼樣子？如何使用？

關於 AudioGhost AI 的常見問題

開始使用 AudioGhost AI

限制與當前開發狀態

延伸閱讀

LATEST POST

Easy Dataset：用於合成 LLM 微調資料的開源框架

CopilotKit：用於建構應用內 AI Copilot 的開源前端堆疊

ComfyUI：最強大的開源擴散模型 GUI，採用節點式工作流程

TAG

CATEGORIES