"什么是 EnCodec，为什么它很重要？"

"EnCodec 是 Meta 的神经音频压缩模型，能以极低比特率（以 48kHz 单声道低至 1.5 kbps）将原始音频压缩为离散标记。它是 AudioCraft 方法的基础——模型不是直接生成原始音频波形，而是生成 EnCodec 可解码回高质量音频的压缩标记。"

AudioCraft：Meta 的开源 AI 音频生成工具包

Q: "什么是 AudioCraft？"

"AudioCraft 是 Meta 的开源 PyTorch 库，用于 AI 驱动的音频生成。它包括三个主要组件：用于文本到音乐的 MusicGen、用于文本到音效的 AudioGen 以及用于高质量神经音频压缩的 EnCodec。该库同时提供预训练模型和用于自定义模型开发的训练代码。"

Q: "MusicGen 是如何工作的？"

"MusicGen 使用单阶段自回归变换器模型，根据文本描述生成音乐。它操作在 EnCodec 产生的压缩音频表示上，顺序预测音频标记。MusicGen 支持以文本提示、旋律特征或两者作为条件，以 32kHz 产生高质量音乐输出。"

Q: "AudioCraft 模型可以微调吗？"

"是的，AudioCraft 提供允许在自定义数据集上进行微调的训练代码。这使得能够适应特定的音乐类型、音效风格或压缩需求。训练流程支持从预训练检查点进行完整微调和继续训练。"

Q: "运行 AudioCraft 需要什么硬件？"

"运行预训练的 AudioCraft 模型需要具有至少 16GB VRAM（用于音乐生成）和 8GB（用于音频压缩）的 CUDA 兼容 GPU。推理可以在 CPU 上进行，但速度会显著变慢。训练需要更强大的硬件，通常需要 4-8 个各具有 24GB+ VRAM 的 GPU。"

AudioCraft 是 Meta 的 PyTorch 音频生成库，包含用于文本到音乐的 MusicGen、音效生成的 AudioGen 和神经音频压缩的 EnCodec。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 05, 2026 阅读 7 分钟

从文本描述生成高质量音频的能力长期以来一直是人工智能的圣杯。AudioCraft，Meta 的开源 PyTorch 库，通过一套涵盖音乐、音效和神经音频压缩的全面音频生成模型，将这项能力带给了更广泛的 AI 社区。

AudioCraft 在单一代码库中统一了三种不同的音频生成能力：用于从文本提示生成音乐的 MusicGen、用于创建音效和环境音频的 AudioGen，以及用于神经音频压缩的 EnCodec。每个组件在其领域内都是最先进的，它们共同构成了目前可用的最强大开源音频 AI 工具包之一。

该库的架构建立在一种通用原则之上：压缩音频表示。AudioCraft 不是直接生成原始音频波形（这在计算上成本高昂且结果质量较低），而是首先使用 EnCodec 将音频压缩为离散标记，然后使用变换器模型生成这些标记，最后将它们解码回高质量音频。

AudioCraft 的架构如何工作？

AudioCraft 框架建立在一个将压缩与生成分开的模块化流程之上。

graph LR
    subgraph 训练
        A1[原始音频] --> A2[EnCodec 编码器]
        A2 --> A3[离散音频标记]
        A3 --> A4[变换器训练]
        B1[文本提示] --> A4
    end
    subgraph 生成
        C1[文本提示] --> C2[MusicGen / AudioGen\n变换器]
        C2 --> C3[生成的标记]
        C3 --> C4[EnCodec 解码器]
        C4 --> C5[输出音频 32kHz]
    end

EnCodec 模型以 1.5 kbps 到 24 kbps 的比率压缩原始音频，实现高效的训练和生成。然后变换器模型学习生成这些以文本描述或旋律提示为条件的压缩标记序列。

AudioCraft 每个组件的功能是什么？

AudioCraft 的每个组件都针对特定的音频生成或处理任务。

组件	功能	输出质量	主要特性
MusicGen	文本到音乐生成	32kHz 立体声	旋律条件、文本提示、延续模式
AudioGen	文本到音效	16kHz 单声道	环境音效、拟音、打击效果
EnCodec	神经音频压缩	可变比特率	1.5-24 kbps、实时、支持流式

MusicGen 获得了最多的关注，因为它能够从描述性文本提示生成连贯的音乐作品。

MusicGen 与其他 AI 音乐生成器的比较

MusicGen 是最早的高质量开源文本到音乐模型之一，且至今仍与开放和封闭的替代方案保持竞争力。

特性	MusicGen	商业替代方案
开源	是（MIT 许可证）	否（专有）
模型大小	300M、1.5B、3.3B 参数	各异
训练数据	20,000 小时授权音乐	专有数据集
生成长度	最多 30 秒	最多 2 分钟以上
输出质量	良好（32kHz）	优秀（44.1kHz+）
旋律控制	是（音频条件）	因平台而异

如何开始使用 AudioCraft？

步骤	操作	详细信息
安装	`pip install -e .`	克隆仓库并安装依赖
模型下载	首次使用自动下载	从 Hugging Face Hub 下载模型
音乐生成	`python -m audiocraft.generate --model facebook/musicgen-melody --prompt "your prompt"`	生成 WAV 文件
压缩	直接使用 EnCodec	将音频压缩为离散标记或解压缩
自定义训练	提供训练脚本	需要多模态数据集准备

常见问题

什么是 AudioCraft？ Meta 的开源 PyTorch 库，用于 AI 驱动的音频生成，包括 MusicGen、AudioGen 和 EnCodec。

MusicGen 是如何工作的？ 使用单阶段自回归变换器模型，操作在 EnCodec 产生的压缩音频表示上。

什么是 EnCodec？ Meta 的神经音频压缩模型，将原始音频压缩为离散标记。

AudioCraft 模型可以微调吗？ 是的，提供允许在自定义数据集上进行微调的训练代码。

运行 AudioCraft 需要什么硬件？ 需要具有至少 16GB VRAM（音乐生成）的 CUDA GPU。

AudioCraft：Meta 的开源 AI 音频生成工具包

AudioCraft 的架构如何工作？

AudioCraft 每个组件的功能是什么？

MusicGen 与其他 AI 音乐生成器的比较

如何开始使用 AudioCraft？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

AudioCraft：Meta 的开源 AI 音频生成工具包

AudioCraft 的架构如何工作？

AudioCraft 每个组件的功能是什么？

MusicGen 与其他 AI 音乐生成器的比较

如何开始使用 AudioCraft？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险