AI

AudioCraft:Meta 的开源 AI 音频生成工具包

AudioCraft 是 Meta 的 PyTorch 音频生成库,包含用于文本到音乐的 MusicGen、音效生成的 AudioGen 和神经音频压缩的 EnCodec。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
AudioCraft:Meta 的开源 AI 音频生成工具包

从文本描述生成高质量音频的能力长期以来一直是人工智能的圣杯。AudioCraft,Meta 的开源 PyTorch 库,通过一套涵盖音乐、音效和神经音频压缩的全面音频生成模型,将这项能力带给了更广泛的 AI 社区。

AudioCraft 在单一代码库中统一了三种不同的音频生成能力:用于从文本提示生成音乐的 MusicGen、用于创建音效和环境音频的 AudioGen,以及用于神经音频压缩的 EnCodec。每个组件在其领域内都是最先进的,它们共同构成了目前可用的最强大开源音频 AI 工具包之一。

该库的架构建立在一种通用原则之上:压缩音频表示。AudioCraft 不是直接生成原始音频波形(这在计算上成本高昂且结果质量较低),而是首先使用 EnCodec 将音频压缩为离散标记,然后使用变换器模型生成这些标记,最后将它们解码回高质量音频。


AudioCraft 的架构如何工作?

AudioCraft 框架建立在一个将压缩与生成分开的模块化流程之上。

graph LR
    subgraph 训练
        A1[原始音频] --> A2[EnCodec 编码器]
        A2 --> A3[离散音频标记]
        A3 --> A4[变换器训练]
        B1[文本提示] --> A4
    end
    subgraph 生成
        C1[文本提示] --> C2[MusicGen / AudioGen\n变换器]
        C2 --> C3[生成的标记]
        C3 --> C4[EnCodec 解码器]
        C4 --> C5[输出音频 32kHz]
    end

EnCodec 模型以 1.5 kbps 到 24 kbps 的比率压缩原始音频,实现高效的训练和生成。然后变换器模型学习生成这些以文本描述或旋律提示为条件的压缩标记序列。


AudioCraft 每个组件的功能是什么?

AudioCraft 的每个组件都针对特定的音频生成或处理任务。

组件功能输出质量主要特性
MusicGen文本到音乐生成32kHz 立体声旋律条件、文本提示、延续模式
AudioGen文本到音效16kHz 单声道环境音效、拟音、打击效果
EnCodec神经音频压缩可变比特率1.5-24 kbps、实时、支持流式

MusicGen 获得了最多的关注,因为它能够从描述性文本提示生成连贯的音乐作品。


MusicGen 与其他 AI 音乐生成器的比较

MusicGen 是最早的高质量开源文本到音乐模型之一,且至今仍与开放和封闭的替代方案保持竞争力。

特性MusicGen商业替代方案
开源是(MIT 许可证)否(专有)
模型大小300M、1.5B、3.3B 参数各异
训练数据20,000 小时授权音乐专有数据集
生成长度最多 30 秒最多 2 分钟以上
输出质量良好(32kHz)优秀(44.1kHz+)
旋律控制是(音频条件)因平台而异

如何开始使用 AudioCraft?

步骤操作详细信息
安装pip install -e .克隆仓库并安装依赖
模型下载首次使用自动下载从 Hugging Face Hub 下载模型
音乐生成python -m audiocraft.generate --model facebook/musicgen-melody --prompt "your prompt"生成 WAV 文件
压缩直接使用 EnCodec将音频压缩为离散标记或解压缩
自定义训练提供训练脚本需要多模态数据集准备

常见问题

什么是 AudioCraft? Meta 的开源 PyTorch 库,用于 AI 驱动的音频生成,包括 MusicGen、AudioGen 和 EnCodec。

MusicGen 是如何工作的? 使用单阶段自回归变换器模型,操作在 EnCodec 产生的压缩音频表示上。

什么是 EnCodec? Meta 的神经音频压缩模型,将原始音频压缩为离散标记。

AudioCraft 模型可以微调吗? 是的,提供允许在自定义数据集上进行微调的训练代码。

运行 AudioCraft 需要什么硬件? 需要具有至少 16GB VRAM(音乐生成)的 CUDA GPU。


延伸阅读

TAG
CATEGORIES