AI 音乐生成领域过去由 Suno 和 Udio 等商业服务主导,但开源生态迎来了一位强劲的挑战者。ACE-Step 1.5 是一款级联扩散变换器模型,能在 2 秒内生成完整歌曲,同时支持在消费级 GPU 上进行 LoRA 微调——这种速度、品质与可及性的组合,在开源音乐生成领域前所未见。
由 ace-step 开发的 1.5 版本相较于前代有了飞跃性的进步。该模型采用级联架构,多个扩散变换器依次协作,从粗略结构到精细细节逐步优化音频输出。这种方法使 ACE-Step 1.5 能达到与商业替代方案竞争的生成品质,同时以 MIT 许可证保持完全开源。
该仓库提供预训练权重、推理脚本、Gradio 网页界面,以及涵盖训练、微调与部署的完整文档。模型大小从 780M 到 5.5B 参数不等,用户可根据硬件选择品质与速度的最佳平衡。
ACE-Step 1.5 为何能如此快速地生成音乐?
ACE-Step 1.5 的速度秘诀在于其级联扩散变换器架构,以及经过优化的推理管线,能以最少的扩散步骤数产生高品质输出。
graph LR
A[文本提示] --> B[文本编码器]
B --> C[级联扩散变换器 L]
C --> D[级联扩散变换器 M]
D --> E[级联扩散变换器 S]
E --> F[声码器 / 解码器]
F --> G[音频输出]
H[参考音频] --> I[音频编码器]
I --> C
G --> J[A100 上不到 2 秒]
级联设计意味着每个子模型都会对前一阶段的输出进行优化。大型变换器(L)建立整体音乐结构,中型变换器(M)加入和声细节,小型变换器(S)则打磨精细的音频品质。这种逐步优化远胜于一次生成高品质音频的效率。
| 阶段 | 模型大小 | 用途 | 大致推理时间 |
|---|---|---|---|
| 第一阶段 | ACE-Step-1.5-L(5.5B) | 粗略结构生成 | A100 上约 0.8 秒 |
| 第二阶段 | ACE-Step-1.5-M(2.4B) | 和声优化 | A100 上约 0.6 秒 |
| 第三阶段 | ACE-Step-1.5-S(780M) | 精细细节打磨 | A100 上约 0.4 秒 |
有哪些模型变体可用?它们之间如何比较?
ACE-Step 1.5 提供多种模型大小,以适应不同的硬件和品质需求,从研究级大型模型到轻量级消费级变体。
| 变体 | 参数 | 建议 GPU | 生成品质 | RTX 4090 速度 |
|---|---|---|---|---|
| ACE-Step-1.5-L | 5.5B | A100 / H100 | 最佳 | 约 4 秒 |
| ACE-Step-1.5-M | 2.4B | RTX 4090 / A10G | 高 | 约 3 秒 |
| ACE-Step-1.5-S | 780M | RTX 3090 / RTX 4080 | 良好 | 约 2 秒 |
| LoRA 模块 | 约 10-50M | RTX 4090 | 自定义风格 | 训练:约 30 分钟 |
LoRA 模块尤其值得关注,因为它允许用户在特定类型、乐器或歌手数据上微调模型,且 GPU 内存需求极低。在 RTX 4090 上使用 50-100 个短音频片段的数据库,一次完整的 LoRA 训练约需 30 分钟。
如何使用 ACE-Step 1.5 进行音乐生成?
开始使用 ACE-Step 1.5 非常简单,根据工作流程提供多种界面选择。
graph TD
A[ACE-Step 1.5 使用方式] --> B[Gradio 网页 UI]
A --> C[Python API]
A --> D[命令行]
B --> E[文本转音乐]
B --> F[参考音频转音乐]
C --> G[批量生成]
C --> H[LoRA 训练]
D --> I[脚本集成]
Gradio 网页界面提供直观的方式来实验模型,支持文本提示和参考音频输入。对开发者而言,Python API 提供编程化访问,适用于批量生成、自定义管线以及与大型应用集成。
| 生成模式 | 输入 | 输出 | 使用案例 |
|---|---|---|---|
| 文本转音乐 | “充满活力的电子舞曲搭配合成贝斯” | 完整歌曲 | 创意探索 |
| 参考音频转音乐 | 提示 + 30 秒音频片段 | 风格延续 | 类型改编 |
| LoRA 微调 | 自定义数据集 + 基础模型 | 微调权重 | 个性化风格 |
常见问题
什么是 ACE-Step 1.5? ACE-Step 1.5 是由 ace-step 开发的开源音乐生成模型,采用级联扩散变换器,可在 NVIDIA A100 GPU 上于 2 秒内生成完整歌曲。支持文本转音乐以及文本搭配参考音频转音乐两种生成模式。
ACE-Step 1.5 的音乐生成速度有多快? ACE-Step 1.5 在 A100 GPU 上生成一首完整的歌曲不到 2 秒,在消费级 RTX 4090 上则不到 7 秒。相较于前代版本,速度大幅提升,主要归功于级联扩散变换器管线的架构优化。
有哪些模型变体可供选择? 该仓库提供数种变体:ACE-Step-1.5-L(大型,5.5B 参数)、ACE-Step-1.5-M(中型,2.4B 参数)、ACE-Step-1.5-S(小型,780M 参数),以及用于自定义训练的 LoRA 模块。大型模型品质最佳,而较小的变体则在保真度与生成速度之间取得取舍。
ACE-Step 1.5 是否支持 LoRA 训练? 是的,ACE-Step 1.5 包含 LoRA(低秩适应)训练支持,让用户能以最小的计算开销在自定义音乐数据集上微调模型。如此一来,无需完整重新训练模型即可实现个性化音乐生成风格。
ACE-Step 1.5 采用什么许可证? ACE-Step 1.5 采用 MIT 许可证发布,对研究与商业使用完全开放。用户可以自由使用、修改和分发模型及其权重,无任何限制。
延伸阅读
- ACE-Step GitHub 仓库 – 源代码、权重与文档
- ACE-Step 1.5 Hugging Face 模型 – 预训练模型权重与 LoRA 模块
- 级联扩散模型解析 – 级联扩散架构研究论文
- LoRA 微调指南 – Hugging Face 的 LoRA 适配指南
- ACE-Step 1.5 展示画廊 – 音频样本与商业方案比较
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!