AI

AudioCraft:Meta 的開源 AI 音訊生成工具組

AudioCraft 是 Meta 的 PyTorch 音訊生成函式庫,包含用於文字轉音樂的 MusicGen、音效生成的 AudioGen 和神經音訊壓縮的 EnCodec。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
AudioCraft:Meta 的開源 AI 音訊生成工具組

從文字描述生成高品質音訊的能力長期以來一直是人工智慧的聖杯。AudioCraft,Meta 的開源 PyTorch 函式庫,透過一套涵蓋音樂、音效和神經音訊壓縮的全面音訊生成模型,將這項能力帶給了更廣泛的 AI 社群。

AudioCraft 在單一代碼庫中統一了三種不同的音訊生成能力:用於從文字提示生成音樂的 MusicGen、用於創建音效和環境音訊的 AudioGen,以及用於神經音訊壓縮的 EnCodec。每個組件在其領域內都是最先進的,它們共同構成了目前可用的最強大開源音訊 AI 工具組之一。

該函式庫的架構建立在一個共同原則之上:壓縮音訊表示。AudioCraft 不是直接生成原始音訊波形(這在計算上成本高昂且結果品質較低),而是首先使用 EnCodec 將音訊壓縮為離散標記,然後使用轉換器模型生成這些標記,最後將它們解碼回高品質音訊。


AudioCraft 的架構如何運作?

AudioCraft 框架建立在一個將壓縮與生成分開的模組化流程之上。

graph LR
    subgraph 訓練
        A1[原始音訊] --> A2[EnCodec 編碼器]
        A2 --> A3[離散音訊標記]
        A3 --> A4[轉換器訓練]
        B1[文字提示] --> A4
    end
    subgraph 生成
        C1[文字提示] --> C2[MusicGen / AudioGen\n轉換器]
        C2 --> C3[生成的標記]
        C3 --> C4[EnCodec 解碼器]
        C4 --> C5[輸出音訊 32kHz]
    end

EnCodec 模型以 1.5 kbps 到 24 kbps 的比率壓縮原始音訊,實現高效的訓練和生成。然後轉換器模型學習生成這些以文字描述或旋律提示為條件的壓縮標記序列。


AudioCraft 每個組件的功能是什麼?

AudioCraft 的每個組件都針對特定的音訊生成或處理任務。

組件功能輸出品質主要特性
MusicGen文字轉音樂生成32kHz 立體聲旋律條件、文字提示、延續模式
AudioGen文字轉音效16kHz 單聲道環境音效、擬音、打擊效果
EnCodec神經音訊壓縮可變位元率1.5-24 kbps、即時、支援串流

MusicGen 獲得了最多的關注,因為它能夠從描述性文字提示(如「一首寧靜的古典鋼琴曲搭配弦樂」或「帶有強烈低音線條的歡快電子舞曲」)生成連貫的音樂作品。


MusicGen 與其他 AI 音樂生成器的比較

MusicGen 是最早的高品質開源文字轉音樂模型之一,且至今仍與開放和封閉的替代方案保持競爭力。

特性MusicGen商業替代方案
開源是(MIT 授權)否(專有)
模型大小300M、1.5B、3.3B 參數各異
訓練資料20,000 小時授權音樂專有資料集
生成長度最多 30 秒最多 2 分鐘以上
輸出品質良好(32kHz)優秀(44.1kHz+)
旋律控制是(音訊條件)因平台而異

MusicGen 的開源性質使研究人員和愛好者能夠以專有平台無法比擬的方式進行音樂 AI 實驗,推動了該領域的快速迭代。


如何開始使用 AudioCraft?

開始使用 AudioCraft 需要設定環境、下載預訓練模型並執行生成腳本。

步驟操作詳細資訊
安裝pip install -e .複製儲存庫並安裝依賴
模型下載首次使用自動下載從 Hugging Face Hub 下載模型
音樂生成python -m audiocraft.generate --model facebook/musicgen-melody --prompt "your prompt"生成 WAV 檔案
壓縮直接使用 EnCodec將音訊壓縮為離散標記或解壓縮
自訂訓練提供訓練腳本需要多模態資料集準備

官方儲存庫為每個組件提供了全面的文件和範例,使研究人員和從業者都能輕鬆使用。


常見問題

什麼是 AudioCraft? AudioCraft 是 Meta 的開源 PyTorch 函式庫,用於 AI 驅動的音訊生成,包括 MusicGen、AudioGen 和 EnCodec。

MusicGen 是如何運作的? MusicGen 使用單階段自回歸轉換器模型,操作在 EnCodec 產生的壓縮音訊表示上,以 32kHz 產生高品質音樂。

什麼是 EnCodec? EnCodec 是 Meta 的神經音訊壓縮模型,將原始音訊壓縮為離散標記,是 AudioCraft 方法的基礎。

AudioCraft 模型可以微調嗎? 是的,AudioCraft 提供允許在自訂資料集上進行微調的訓練程式碼。

運行 AudioCraft 需要什麼硬體? 運行預訓練模型需要具有至少 16GB VRAM(音樂生成)的 CUDA GPU。


延伸閱讀

TAG