ACE-Step 1.5：开源音乐生成模型超越商业方案

Q: "什么是 ACE-Step 1.5？"

"ACE-Step 1.5 是由 ace-step 开发的开源音乐生成模型，采用级联扩散变换器（cascaded diffusion transformers），可在 NVIDIA A100 GPU 上于 2 秒内生成完整歌曲。支持文本转音乐以及文本搭配参考音频转音乐两种模式。"

Q: "ACE-Step 1.5 的音乐生成速度有多快？"

"ACE-Step 1.5 在 A100 GPU 上生成一首完整的歌曲不到 2 秒，在消费级 RTX 4090 上则不到 7 秒。相较于前代版本，速度大幅提升，主要归功于级联扩散变换器管线的架构优化。"

Q: "有哪些模型变体可供选择？"

"该仓库提供数种变体：ACE-Step-1.5-L（大型，5.5B 参数）、ACE-Step-1.5-M（中型，2.4B 参数）、ACE-Step-1.5-S（小型，780M 参数），以及用于自定义训练的 LoRA 模块。大型模型品质最佳，而较小的变体则在保真度与生成速度之间取得取舍。"

Q: "ACE-Step 1.5 是否支持 LoRA 训练？"

"是的，ACE-Step 1.5 包含 LoRA（低秩适应）训练支持，让用户能以最小的计算开销在自定义音乐数据集上微调模型。如此一来，无需完整重新训练模型即可实现个性化音乐生成风格。"

Q: "ACE-Step 1.5 采用什么许可证？"

"ACE-Step 1.5 采用 MIT 许可证发布，对研究与商业使用完全开放。用户可以自由使用、修改和分发模型及其权重，无任何限制。"

ACE-Step 1.5 是一款开源音乐生成模型，能在 2 秒内生成完整歌曲，支持 LoRA 训练与消费级 GPU。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 04, 2026 阅读 9 分钟

AI 音乐生成领域过去由 Suno 和 Udio 等商业服务主导，但开源生态迎来了一位强劲的挑战者。ACE-Step 1.5 是一款级联扩散变换器模型，能在 2 秒内生成完整歌曲，同时支持在消费级 GPU 上进行 LoRA 微调——这种速度、品质与可及性的组合，在开源音乐生成领域前所未见。

由 ace-step 开发的 1.5 版本相较于前代有了飞跃性的进步。该模型采用级联架构，多个扩散变换器依次协作，从粗略结构到精细细节逐步优化音频输出。这种方法使 ACE-Step 1.5 能达到与商业替代方案竞争的生成品质，同时以 MIT 许可证保持完全开源。

该仓库提供预训练权重、推理脚本、Gradio 网页界面，以及涵盖训练、微调与部署的完整文档。模型大小从 780M 到 5.5B 参数不等，用户可根据硬件选择品质与速度的最佳平衡。

ACE-Step 1.5 为何能如此快速地生成音乐？

ACE-Step 1.5 的速度秘诀在于其级联扩散变换器架构，以及经过优化的推理管线，能以最少的扩散步骤数产生高品质输出。

graph LR
    A[文本提示] --> B[文本编码器]
    B --> C[级联扩散变换器 L]
    C --> D[级联扩散变换器 M]
    D --> E[级联扩散变换器 S]
    E --> F[声码器 / 解码器]
    F --> G[音频输出]
    H[参考音频] --> I[音频编码器]
    I --> C
    G --> J[A100 上不到 2 秒]

级联设计意味着每个子模型都会对前一阶段的输出进行优化。大型变换器（L）建立整体音乐结构，中型变换器（M）加入和声细节，小型变换器（S）则打磨精细的音频品质。这种逐步优化远胜于一次生成高品质音频的效率。

阶段	模型大小	用途	大致推理时间
第一阶段	ACE-Step-1.5-L（5.5B）	粗略结构生成	A100 上约 0.8 秒
第二阶段	ACE-Step-1.5-M（2.4B）	和声优化	A100 上约 0.6 秒
第三阶段	ACE-Step-1.5-S（780M）	精细细节打磨	A100 上约 0.4 秒

有哪些模型变体可用？它们之间如何比较？

ACE-Step 1.5 提供多种模型大小，以适应不同的硬件和品质需求，从研究级大型模型到轻量级消费级变体。

变体	参数	建议 GPU	生成品质	RTX 4090 速度
ACE-Step-1.5-L	5.5B	A100 / H100	最佳	约 4 秒
ACE-Step-1.5-M	2.4B	RTX 4090 / A10G	高	约 3 秒
ACE-Step-1.5-S	780M	RTX 3090 / RTX 4080	良好	约 2 秒
LoRA 模块	约 10-50M	RTX 4090	自定义风格	训练：约 30 分钟

LoRA 模块尤其值得关注，因为它允许用户在特定类型、乐器或歌手数据上微调模型，且 GPU 内存需求极低。在 RTX 4090 上使用 50-100 个短音频片段的数据库，一次完整的 LoRA 训练约需 30 分钟。

如何使用 ACE-Step 1.5 进行音乐生成？

开始使用 ACE-Step 1.5 非常简单，根据工作流程提供多种界面选择。

graph TD
    A[ACE-Step 1.5 使用方式] --> B[Gradio 网页 UI]
    A --> C[Python API]
    A --> D[命令行]
    B --> E[文本转音乐]
    B --> F[参考音频转音乐]
    C --> G[批量生成]
    C --> H[LoRA 训练]
    D --> I[脚本集成]

Gradio 网页界面提供直观的方式来实验模型，支持文本提示和参考音频输入。对开发者而言，Python API 提供编程化访问，适用于批量生成、自定义管线以及与大型应用集成。

生成模式	输入	输出	使用案例
文本转音乐	“充满活力的电子舞曲搭配合成贝斯”	完整歌曲	创意探索
参考音频转音乐	提示 + 30 秒音频片段	风格延续	类型改编
LoRA 微调	自定义数据集 + 基础模型	微调权重	个性化风格

常见问题

什么是 ACE-Step 1.5？ ACE-Step 1.5 是由 ace-step 开发的开源音乐生成模型，采用级联扩散变换器，可在 NVIDIA A100 GPU 上于 2 秒内生成完整歌曲。支持文本转音乐以及文本搭配参考音频转音乐两种生成模式。

ACE-Step 1.5 的音乐生成速度有多快？ ACE-Step 1.5 在 A100 GPU 上生成一首完整的歌曲不到 2 秒，在消费级 RTX 4090 上则不到 7 秒。相较于前代版本，速度大幅提升，主要归功于级联扩散变换器管线的架构优化。

有哪些模型变体可供选择？ 该仓库提供数种变体：ACE-Step-1.5-L（大型，5.5B 参数）、ACE-Step-1.5-M（中型，2.4B 参数）、ACE-Step-1.5-S（小型，780M 参数），以及用于自定义训练的 LoRA 模块。大型模型品质最佳，而较小的变体则在保真度与生成速度之间取得取舍。

ACE-Step 1.5 是否支持 LoRA 训练？ 是的，ACE-Step 1.5 包含 LoRA（低秩适应）训练支持，让用户能以最小的计算开销在自定义音乐数据集上微调模型。如此一来，无需完整重新训练模型即可实现个性化音乐生成风格。

ACE-Step 1.5 采用什么许可证？ ACE-Step 1.5 采用 MIT 许可证发布，对研究与商业使用完全开放。用户可以自由使用、修改和分发模型及其权重，无任何限制。

ACE-Step 1.5：开源音乐生成模型超越商业方案

ACE-Step 1.5 为何能如此快速地生成音乐？

有哪些模型变体可用？它们之间如何比较？

如何使用 ACE-Step 1.5 进行音乐生成？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

ACE-Step 1.5：开源音乐生成模型超越商业方案

ACE-Step 1.5 为何能如此快速地生成音乐？

有哪些模型变体可用？它们之间如何比较？

如何使用 ACE-Step 1.5 进行音乐生成？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险