從文字描述生成高品質音訊的能力長期以來一直是人工智慧的聖杯。AudioCraft,Meta 的開源 PyTorch 函式庫,透過一套涵蓋音樂、音效和神經音訊壓縮的全面音訊生成模型,將這項能力帶給了更廣泛的 AI 社群。
AudioCraft 在單一代碼庫中統一了三種不同的音訊生成能力:用於從文字提示生成音樂的 MusicGen、用於創建音效和環境音訊的 AudioGen,以及用於神經音訊壓縮的 EnCodec。每個組件在其領域內都是最先進的,它們共同構成了目前可用的最強大開源音訊 AI 工具組之一。
該函式庫的架構建立在一個共同原則之上:壓縮音訊表示。AudioCraft 不是直接生成原始音訊波形(這在計算上成本高昂且結果品質較低),而是首先使用 EnCodec 將音訊壓縮為離散標記,然後使用轉換器模型生成這些標記,最後將它們解碼回高品質音訊。
AudioCraft 的架構如何運作?
AudioCraft 框架建立在一個將壓縮與生成分開的模組化流程之上。
graph LR
subgraph 訓練
A1[原始音訊] --> A2[EnCodec 編碼器]
A2 --> A3[離散音訊標記]
A3 --> A4[轉換器訓練]
B1[文字提示] --> A4
end
subgraph 生成
C1[文字提示] --> C2[MusicGen / AudioGen\n轉換器]
C2 --> C3[生成的標記]
C3 --> C4[EnCodec 解碼器]
C4 --> C5[輸出音訊 32kHz]
end
EnCodec 模型以 1.5 kbps 到 24 kbps 的比率壓縮原始音訊,實現高效的訓練和生成。然後轉換器模型學習生成這些以文字描述或旋律提示為條件的壓縮標記序列。
AudioCraft 每個組件的功能是什麼?
AudioCraft 的每個組件都針對特定的音訊生成或處理任務。
| 組件 | 功能 | 輸出品質 | 主要特性 |
|---|---|---|---|
| MusicGen | 文字轉音樂生成 | 32kHz 立體聲 | 旋律條件、文字提示、延續模式 |
| AudioGen | 文字轉音效 | 16kHz 單聲道 | 環境音效、擬音、打擊效果 |
| EnCodec | 神經音訊壓縮 | 可變位元率 | 1.5-24 kbps、即時、支援串流 |
MusicGen 獲得了最多的關注,因為它能夠從描述性文字提示(如「一首寧靜的古典鋼琴曲搭配弦樂」或「帶有強烈低音線條的歡快電子舞曲」)生成連貫的音樂作品。
MusicGen 與其他 AI 音樂生成器的比較
MusicGen 是最早的高品質開源文字轉音樂模型之一,且至今仍與開放和封閉的替代方案保持競爭力。
| 特性 | MusicGen | 商業替代方案 |
|---|---|---|
| 開源 | 是(MIT 授權) | 否(專有) |
| 模型大小 | 300M、1.5B、3.3B 參數 | 各異 |
| 訓練資料 | 20,000 小時授權音樂 | 專有資料集 |
| 生成長度 | 最多 30 秒 | 最多 2 分鐘以上 |
| 輸出品質 | 良好(32kHz) | 優秀(44.1kHz+) |
| 旋律控制 | 是(音訊條件) | 因平台而異 |
MusicGen 的開源性質使研究人員和愛好者能夠以專有平台無法比擬的方式進行音樂 AI 實驗,推動了該領域的快速迭代。
如何開始使用 AudioCraft?
開始使用 AudioCraft 需要設定環境、下載預訓練模型並執行生成腳本。
| 步驟 | 操作 | 詳細資訊 |
|---|---|---|
| 安裝 | pip install -e . | 複製儲存庫並安裝依賴 |
| 模型下載 | 首次使用自動下載 | 從 Hugging Face Hub 下載模型 |
| 音樂生成 | python -m audiocraft.generate --model facebook/musicgen-melody --prompt "your prompt" | 生成 WAV 檔案 |
| 壓縮 | 直接使用 EnCodec | 將音訊壓縮為離散標記或解壓縮 |
| 自訂訓練 | 提供訓練腳本 | 需要多模態資料集準備 |
官方儲存庫為每個組件提供了全面的文件和範例,使研究人員和從業者都能輕鬆使用。
常見問題
什麼是 AudioCraft? AudioCraft 是 Meta 的開源 PyTorch 函式庫,用於 AI 驅動的音訊生成,包括 MusicGen、AudioGen 和 EnCodec。
MusicGen 是如何運作的? MusicGen 使用單階段自回歸轉換器模型,操作在 EnCodec 產生的壓縮音訊表示上,以 32kHz 產生高品質音樂。
什麼是 EnCodec? EnCodec 是 Meta 的神經音訊壓縮模型,將原始音訊壓縮為離散標記,是 AudioCraft 方法的基礎。
AudioCraft 模型可以微調嗎? 是的,AudioCraft 提供允許在自訂資料集上進行微調的訓練程式碼。
運行 AudioCraft 需要什麼硬體? 運行預訓練模型需要具有至少 16GB VRAM(音樂生成)的 CUDA GPU。
延伸閱讀
- AudioCraft GitHub 儲存庫 – 原始碼、模型和文件
- MusicGen 論文 (ArXiv) – “Simple and Controllable Music Generation”
- EnCodec 論文 (ArXiv) – “High-Fidelity Audio Compression with Improved RVQGAN”
- Meta AI AudioCraft 部落格 – 官方 Meta 公告和概述
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!