AI

ACE-Step 1.5:开源音乐生成模型超越商业方案

ACE-Step 1.5 是一款开源音乐生成模型,能在 2 秒内生成完整歌曲,支持 LoRA 训练与消费级 GPU。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
ACE-Step 1.5:开源音乐生成模型超越商业方案

AI 音乐生成领域过去由 Suno 和 Udio 等商业服务主导,但开源生态迎来了一位强劲的挑战者。ACE-Step 1.5 是一款级联扩散变换器模型,能在 2 秒内生成完整歌曲,同时支持在消费级 GPU 上进行 LoRA 微调——这种速度、品质与可及性的组合,在开源音乐生成领域前所未见。

由 ace-step 开发的 1.5 版本相较于前代有了飞跃性的进步。该模型采用级联架构,多个扩散变换器依次协作,从粗略结构到精细细节逐步优化音频输出。这种方法使 ACE-Step 1.5 能达到与商业替代方案竞争的生成品质,同时以 MIT 许可证保持完全开源。

该仓库提供预训练权重、推理脚本、Gradio 网页界面,以及涵盖训练、微调与部署的完整文档。模型大小从 780M 到 5.5B 参数不等,用户可根据硬件选择品质与速度的最佳平衡。


ACE-Step 1.5 为何能如此快速地生成音乐?

ACE-Step 1.5 的速度秘诀在于其级联扩散变换器架构,以及经过优化的推理管线,能以最少的扩散步骤数产生高品质输出。

graph LR
    A[文本提示] --> B[文本编码器]
    B --> C[级联扩散变换器 L]
    C --> D[级联扩散变换器 M]
    D --> E[级联扩散变换器 S]
    E --> F[声码器 / 解码器]
    F --> G[音频输出]
    H[参考音频] --> I[音频编码器]
    I --> C
    G --> J[A100 上不到 2 秒]

级联设计意味着每个子模型都会对前一阶段的输出进行优化。大型变换器(L)建立整体音乐结构,中型变换器(M)加入和声细节,小型变换器(S)则打磨精细的音频品质。这种逐步优化远胜于一次生成高品质音频的效率。

阶段模型大小用途大致推理时间
第一阶段ACE-Step-1.5-L(5.5B)粗略结构生成A100 上约 0.8 秒
第二阶段ACE-Step-1.5-M(2.4B)和声优化A100 上约 0.6 秒
第三阶段ACE-Step-1.5-S(780M)精细细节打磨A100 上约 0.4 秒

有哪些模型变体可用?它们之间如何比较?

ACE-Step 1.5 提供多种模型大小,以适应不同的硬件和品质需求,从研究级大型模型到轻量级消费级变体。

变体参数建议 GPU生成品质RTX 4090 速度
ACE-Step-1.5-L5.5BA100 / H100最佳约 4 秒
ACE-Step-1.5-M2.4BRTX 4090 / A10G约 3 秒
ACE-Step-1.5-S780MRTX 3090 / RTX 4080良好约 2 秒
LoRA 模块约 10-50MRTX 4090自定义风格训练:约 30 分钟

LoRA 模块尤其值得关注,因为它允许用户在特定类型、乐器或歌手数据上微调模型,且 GPU 内存需求极低。在 RTX 4090 上使用 50-100 个短音频片段的数据库,一次完整的 LoRA 训练约需 30 分钟。


如何使用 ACE-Step 1.5 进行音乐生成?

开始使用 ACE-Step 1.5 非常简单,根据工作流程提供多种界面选择。

graph TD
    A[ACE-Step 1.5 使用方式] --> B[Gradio 网页 UI]
    A --> C[Python API]
    A --> D[命令行]
    B --> E[文本转音乐]
    B --> F[参考音频转音乐]
    C --> G[批量生成]
    C --> H[LoRA 训练]
    D --> I[脚本集成]

Gradio 网页界面提供直观的方式来实验模型,支持文本提示和参考音频输入。对开发者而言,Python API 提供编程化访问,适用于批量生成、自定义管线以及与大型应用集成。

生成模式输入输出使用案例
文本转音乐“充满活力的电子舞曲搭配合成贝斯”完整歌曲创意探索
参考音频转音乐提示 + 30 秒音频片段风格延续类型改编
LoRA 微调自定义数据集 + 基础模型微调权重个性化风格

常见问题

什么是 ACE-Step 1.5? ACE-Step 1.5 是由 ace-step 开发的开源音乐生成模型,采用级联扩散变换器,可在 NVIDIA A100 GPU 上于 2 秒内生成完整歌曲。支持文本转音乐以及文本搭配参考音频转音乐两种生成模式。

ACE-Step 1.5 的音乐生成速度有多快? ACE-Step 1.5 在 A100 GPU 上生成一首完整的歌曲不到 2 秒,在消费级 RTX 4090 上则不到 7 秒。相较于前代版本,速度大幅提升,主要归功于级联扩散变换器管线的架构优化。

有哪些模型变体可供选择? 该仓库提供数种变体:ACE-Step-1.5-L(大型,5.5B 参数)、ACE-Step-1.5-M(中型,2.4B 参数)、ACE-Step-1.5-S(小型,780M 参数),以及用于自定义训练的 LoRA 模块。大型模型品质最佳,而较小的变体则在保真度与生成速度之间取得取舍。

ACE-Step 1.5 是否支持 LoRA 训练? 是的,ACE-Step 1.5 包含 LoRA(低秩适应)训练支持,让用户能以最小的计算开销在自定义音乐数据集上微调模型。如此一来,无需完整重新训练模型即可实现个性化音乐生成风格。

ACE-Step 1.5 采用什么许可证? ACE-Step 1.5 采用 MIT 许可证发布,对研究与商业使用完全开放。用户可以自由使用、修改和分发模型及其权重,无任何限制。


延伸阅读

TAG
CATEGORIES