AI

ACE-Step 1.5:開源音樂生成模型超越商業方案

ACE-Step 1.5 是一款開源音樂生成模型,能在 2 秒內生成完整歌曲,支援 LoRA 訓練與消費級 GPU。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
ACE-Step 1.5:開源音樂生成模型超越商業方案

AI 音樂生成領域過去由 Suno 和 Udio 等商業服務主導,但開源生態系迎來了一位強勁的挑戰者。ACE-Step 1.5 是一款串聯擴散轉換器模型,能在 2 秒內生成完整歌曲,同時支援在消費級 GPU 上進行 LoRA 微調——這種速度、品質與可及性的組合,在開源音樂生成領域前所未見。

由 ace-step 開發的 1.5 版本相較前代有了飛躍性的進步。該模型採用串聯架構,多個擴散轉換器依序協作,從粗略結構到精細細節逐步優化音訊輸出。這種方法使 ACE-Step 1.5 能達到與商業替代方案競爭的生成品質,同時以 MIT 授權保持完全開源。

該儲存庫提供預訓練權重、推論腳本、Gradio 網頁介面,以及涵蓋訓練、微調與部署的完整文件。模型大小從 780M 到 5.5B 參數不等,使用者可根據硬體選擇品質與速度的最佳平衡。


ACE-Step 1.5 為何能如此快速地生成音樂?

ACE-Step 1.5 的速度祕訣在於其串聯擴散轉換器架構,以及經過優化的推論管線,能以最少的擴散步驟數產生高品質輸出。

graph LR
    A[文字提示] --> B[文字編碼器]
    B --> C[串聯擴散轉換器 L]
    C --> D[串聯擴散轉換器 M]
    D --> E[串聯擴散轉換器 S]
    E --> F[聲碼器 / 解碼器]
    F --> G[音訊輸出]
    H[參考音訊] --> I[音訊編碼器]
    I --> C
    G --> J[A100 上不到 2 秒]

串聯設計意味著每個子模型都會對前一個階段的輸出進行優化。大型轉換器(L)建立整體音樂結構,中型轉換器(M)加入和聲細節,小型轉換器(S)則打磨精細的音訊品質。這種逐步優化遠比一次生成高品質音訊更有效率。

階段模型大小用途約略推論時間
第一階段ACE-Step-1.5-L(5.5B)粗略結構生成A100 上約 0.8 秒
第二階段ACE-Step-1.5-M(2.4B)和聲優化A100 上約 0.6 秒
第三階段ACE-Step-1.5-S(780M)精細細節打磨A100 上約 0.4 秒

有哪些模型變體可用?它們之間如何比較?

ACE-Step 1.5 提供多種模型大小,以適應不同的硬體和品質需求,從研究級大型模型到輕量級消費級變體。

變體參數建議 GPU生成品質RTX 4090 速度
ACE-Step-1.5-L5.5BA100 / H100最佳約 4 秒
ACE-Step-1.5-M2.4BRTX 4090 / A10G約 3 秒
ACE-Step-1.5-S780MRTX 3090 / RTX 4080良好約 2 秒
LoRA 模組約 10-50MRTX 4090自訂風格訓練:約 30 分鐘

LoRA 模組尤其值得關注,因為它允許使用者在特定類型、樂器或歌手資料上微調模型,且 GPU 記憶體需求極低。在 RTX 4090 上使用 50-100 個短音訊剪輯的資料集,一次完整的 LoRA 訓練約需 30 分鐘。


如何使用 ACE-Step 1.5 進行音樂生成?

開始使用 ACE-Step 1.5 非常簡單,根據工作流程提供多種介面選擇。

graph TD
    A[ACE-Step 1.5 使用方式] --> B[Gradio 網頁 UI]
    A --> C[Python API]
    A --> D[命令列]
    B --> E[文字轉音樂]
    B --> F[參考音訊轉音樂]
    C --> G[批次生成]
    C --> H[LoRA 訓練]
    D --> I[腳本整合]

Gradio 網頁介面提供直觀的方式來實驗模型,支援文字提示和參考音訊輸入。對開發者而言,Python API 提供程式化存取,適用於批次生成、自訂管線以及與大型應用整合。

生成模式輸入輸出使用案例
文字轉音樂“充滿活力的電子舞曲搭配合成貝斯”完整歌曲創意探索
參考音訊轉音樂提示 + 30 秒音訊片段風格延續類型改編
LoRA 微調自訂資料集 + 基礎模型微調權重個人化風格

常見問題

什麼是 ACE-Step 1.5? ACE-Step 1.5 是由 ace-step 開發的開源音樂生成模型,採用串聯擴散轉換器,可在 NVIDIA A100 GPU 上於 2 秒內生成完整歌曲。支援文字轉音樂以及文字搭配參考音訊轉音樂兩種生成模式。

ACE-Step 1.5 的音樂生成速度有多快? ACE-Step 1.5 在 A100 GPU 上生成一首完整的歌曲不到 2 秒,在消費級 RTX 4090 上則不到 7 秒。相較於前代版本,速度大幅提升,主要歸功於串聯擴散轉換器管線的架構優化。

有哪些模型變體可供選擇? 該儲存庫提供數種變體:ACE-Step-1.5-L(大型,5.5B 參數)、ACE-Step-1.5-M(中型,2.4B 參數)、ACE-Step-1.5-S(小型,780M 參數),以及用於自訂訓練的 LoRA 模組。大型模型品質最佳,而較小的變體則在保真度與生成速度之間取得取捨。

ACE-Step 1.5 是否支援 LoRA 訓練? 是的,ACE-Step 1.5 包含 LoRA(低秩適應)訓練支援,讓使用者能以最小的運算開銷在自訂音樂資料集上微調模型。如此一來,無需完整重新訓練模型即可實現個人化音樂生成風格。

ACE-Step 1.5 採用什麼授權? ACE-Step 1.5 採用 MIT 授權釋出,對研究與商業使用完全開放。使用者可以自由使用、修改和散佈模型及其權重,無任何限制。


延伸閱讀

TAG