"什麼是 EnCodec，為什麼它很重要？"

"EnCodec 是 Meta 的神經音訊壓縮模型，能以極低位元率（以 48kHz 單聲道低至 1.5 kbps）將原始音訊壓縮為離散標記。它是 AudioCraft 方法的基礎——模型不是直接生成原始音訊波形，而是生成 EnCodec 可解碼回高品質音訊的壓縮標記。"

AudioCraft：Meta 的開源 AI 音訊生成工具組

Q: "什麼是 AudioCraft？"

"AudioCraft 是 Meta 的開源 PyTorch 函式庫，用於 AI 驅動的音訊生成。它包括三個主要組件：用於文字轉音樂的 MusicGen、用於文字轉音效的 AudioGen 以及用於高品質神經音訊壓縮的 EnCodec。該函式庫同時提供預訓練模型和用於自訂模型開發的訓練程式碼。"

Q: "MusicGen 是如何運作的？"

"MusicGen 使用單階段自回歸轉換器模型，根據文字描述生成音樂。它操作在 EnCodec 產生的壓縮音訊表示上，順序預測音訊標記。MusicGen 支援以文字提示、旋律特徵或兩者作為條件，以 32kHz 產生高品質音樂輸出。"

Q: "AudioCraft 模型可以微調嗎？"

"是的，AudioCraft 提供允許在自訂資料集上進行微調的訓練程式碼。這使得能夠適應特定的音樂類型、音效風格或壓縮需求。訓練流程支援從預訓練檢查點進行完整微調和繼續訓練。"

Q: "運行 AudioCraft 需要什麼硬體？"

"運行預訓練的 AudioCraft 模型需要具有至少 16GB VRAM（用於音樂生成）和 8GB（用於音訊壓縮）的 CUDA 相容 GPU。推理可以在 CPU 上進行，但速度會顯著變慢。訓練需要更強大的硬體，通常需要 4-8 個各具有 24GB+ VRAM 的 GPU。"

AudioCraft 是 Meta 的 PyTorch 音訊生成函式庫，包含用於文字轉音樂的 MusicGen、音效生成的 AudioGen 和神經音訊壓縮的 EnCodec。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 05, 2026 閱讀 8 分鐘

從文字描述生成高品質音訊的能力長期以來一直是人工智慧的聖杯。AudioCraft，Meta 的開源 PyTorch 函式庫，透過一套涵蓋音樂、音效和神經音訊壓縮的全面音訊生成模型，將這項能力帶給了更廣泛的 AI 社群。

AudioCraft 在單一代碼庫中統一了三種不同的音訊生成能力：用於從文字提示生成音樂的 MusicGen、用於創建音效和環境音訊的 AudioGen，以及用於神經音訊壓縮的 EnCodec。每個組件在其領域內都是最先進的，它們共同構成了目前可用的最強大開源音訊 AI 工具組之一。

該函式庫的架構建立在一個共同原則之上：壓縮音訊表示。AudioCraft 不是直接生成原始音訊波形（這在計算上成本高昂且結果品質較低），而是首先使用 EnCodec 將音訊壓縮為離散標記，然後使用轉換器模型生成這些標記，最後將它們解碼回高品質音訊。

AudioCraft 的架構如何運作？

AudioCraft 框架建立在一個將壓縮與生成分開的模組化流程之上。

graph LR
    subgraph 訓練
        A1[原始音訊] --> A2[EnCodec 編碼器]
        A2 --> A3[離散音訊標記]
        A3 --> A4[轉換器訓練]
        B1[文字提示] --> A4
    end
    subgraph 生成
        C1[文字提示] --> C2[MusicGen / AudioGen\n轉換器]
        C2 --> C3[生成的標記]
        C3 --> C4[EnCodec 解碼器]
        C4 --> C5[輸出音訊 32kHz]
    end

EnCodec 模型以 1.5 kbps 到 24 kbps 的比率壓縮原始音訊，實現高效的訓練和生成。然後轉換器模型學習生成這些以文字描述或旋律提示為條件的壓縮標記序列。

AudioCraft 每個組件的功能是什麼？

AudioCraft 的每個組件都針對特定的音訊生成或處理任務。

組件	功能	輸出品質	主要特性
MusicGen	文字轉音樂生成	32kHz 立體聲	旋律條件、文字提示、延續模式
AudioGen	文字轉音效	16kHz 單聲道	環境音效、擬音、打擊效果
EnCodec	神經音訊壓縮	可變位元率	1.5-24 kbps、即時、支援串流

MusicGen 獲得了最多的關注，因為它能夠從描述性文字提示（如「一首寧靜的古典鋼琴曲搭配弦樂」或「帶有強烈低音線條的歡快電子舞曲」）生成連貫的音樂作品。

MusicGen 與其他 AI 音樂生成器的比較

MusicGen 是最早的高品質開源文字轉音樂模型之一，且至今仍與開放和封閉的替代方案保持競爭力。

特性	MusicGen	商業替代方案
開源	是（MIT 授權）	否（專有）
模型大小	300M、1.5B、3.3B 參數	各異
訓練資料	20,000 小時授權音樂	專有資料集
生成長度	最多 30 秒	最多 2 分鐘以上
輸出品質	良好（32kHz）	優秀（44.1kHz+）
旋律控制	是（音訊條件）	因平台而異

MusicGen 的開源性質使研究人員和愛好者能夠以專有平台無法比擬的方式進行音樂 AI 實驗，推動了該領域的快速迭代。

如何開始使用 AudioCraft？

開始使用 AudioCraft 需要設定環境、下載預訓練模型並執行生成腳本。

步驟	操作	詳細資訊
安裝	`pip install -e .`	複製儲存庫並安裝依賴
模型下載	首次使用自動下載	從 Hugging Face Hub 下載模型
音樂生成	`python -m audiocraft.generate --model facebook/musicgen-melody --prompt "your prompt"`	生成 WAV 檔案
壓縮	直接使用 EnCodec	將音訊壓縮為離散標記或解壓縮
自訂訓練	提供訓練腳本	需要多模態資料集準備

官方儲存庫為每個組件提供了全面的文件和範例，使研究人員和從業者都能輕鬆使用。

常見問題

什麼是 AudioCraft？ AudioCraft 是 Meta 的開源 PyTorch 函式庫，用於 AI 驅動的音訊生成，包括 MusicGen、AudioGen 和 EnCodec。

MusicGen 是如何運作的？ MusicGen 使用單階段自回歸轉換器模型，操作在 EnCodec 產生的壓縮音訊表示上，以 32kHz 產生高品質音樂。

什麼是 EnCodec？ EnCodec 是 Meta 的神經音訊壓縮模型，將原始音訊壓縮為離散標記，是 AudioCraft 方法的基礎。

AudioCraft 模型可以微調嗎？ 是的，AudioCraft 提供允許在自訂資料集上進行微調的訓練程式碼。

運行 AudioCraft 需要什麼硬體？ 運行預訓練模型需要具有至少 16GB VRAM（音樂生成）的 CUDA GPU。

AudioCraft：Meta 的開源 AI 音訊生成工具組

AudioCraft 的架構如何運作？

AudioCraft 每個組件的功能是什麼？

MusicGen 與其他 AI 音樂生成器的比較

如何開始使用 AudioCraft？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

AudioCraft：Meta 的開源 AI 音訊生成工具組

AudioCraft 的架構如何運作？

AudioCraft 每個組件的功能是什麼？

MusicGen 與其他 AI 音樂生成器的比較

如何開始使用 AudioCraft？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲 凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險