ACE-Step 1.5：開源音樂生成模型超越商業方案

Q: "什麼是 ACE-Step 1.5？"

"ACE-Step 1.5 是由 ace-step 開發的開源音樂生成模型，採用串聯擴散轉換器（cascaded diffusion transformers），可在 NVIDIA A100 GPU 上於 2 秒內生成完整歌曲。支援文字轉音樂以及文字搭配參考音訊轉音樂兩種模式。"

Q: "ACE-Step 1.5 的音樂生成速度有多快？"

"ACE-Step 1.5 在 A100 GPU 上生成一首完整的歌曲不到 2 秒，在消費級 RTX 4090 上則不到 7 秒。相較於前代版本，速度大幅提升，主要歸功於串聯擴散轉換器管線的架構優化。"

Q: "有哪些模型變體可供選擇？"

"該儲存庫提供數種變體：ACE-Step-1.5-L（大型，5.5B 參數）、ACE-Step-1.5-M（中型，2.4B 參數）、ACE-Step-1.5-S（小型，780M 參數），以及用於自訂訓練的 LoRA 模組。大型模型品質最佳，而較小的變體則在保真度與生成速度之間取得取捨。"

Q: "ACE-Step 1.5 是否支援 LoRA 訓練？"

"是的，ACE-Step 1.5 包含 LoRA（低秩適應）訓練支援，讓使用者能以最小的運算開銷在自訂音樂資料集上微調模型。如此一來，無需完整重新訓練模型即可實現個人化音樂生成風格。"

Q: "ACE-Step 1.5 採用什麼授權？"

"ACE-Step 1.5 採用 MIT 授權釋出，對研究與商業使用完全開放。使用者可以自由使用、修改和散佈模型及其權重，無任何限制。"

ACE-Step 1.5 是一款開源音樂生成模型，能在 2 秒內生成完整歌曲，支援 LoRA 訓練與消費級 GPU。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 04, 2026 閱讀 9 分鐘

AI 音樂生成領域過去由 Suno 和 Udio 等商業服務主導，但開源生態系迎來了一位強勁的挑戰者。ACE-Step 1.5 是一款串聯擴散轉換器模型，能在 2 秒內生成完整歌曲，同時支援在消費級 GPU 上進行 LoRA 微調——這種速度、品質與可及性的組合，在開源音樂生成領域前所未見。

由 ace-step 開發的 1.5 版本相較前代有了飛躍性的進步。該模型採用串聯架構，多個擴散轉換器依序協作，從粗略結構到精細細節逐步優化音訊輸出。這種方法使 ACE-Step 1.5 能達到與商業替代方案競爭的生成品質，同時以 MIT 授權保持完全開源。

該儲存庫提供預訓練權重、推論腳本、Gradio 網頁介面，以及涵蓋訓練、微調與部署的完整文件。模型大小從 780M 到 5.5B 參數不等，使用者可根據硬體選擇品質與速度的最佳平衡。

ACE-Step 1.5 為何能如此快速地生成音樂？

ACE-Step 1.5 的速度祕訣在於其串聯擴散轉換器架構，以及經過優化的推論管線，能以最少的擴散步驟數產生高品質輸出。

graph LR
    A[文字提示] --> B[文字編碼器]
    B --> C[串聯擴散轉換器 L]
    C --> D[串聯擴散轉換器 M]
    D --> E[串聯擴散轉換器 S]
    E --> F[聲碼器 / 解碼器]
    F --> G[音訊輸出]
    H[參考音訊] --> I[音訊編碼器]
    I --> C
    G --> J[A100 上不到 2 秒]

串聯設計意味著每個子模型都會對前一個階段的輸出進行優化。大型轉換器（L）建立整體音樂結構，中型轉換器（M）加入和聲細節，小型轉換器（S）則打磨精細的音訊品質。這種逐步優化遠比一次生成高品質音訊更有效率。

階段	模型大小	用途	約略推論時間
第一階段	ACE-Step-1.5-L（5.5B）	粗略結構生成	A100 上約 0.8 秒
第二階段	ACE-Step-1.5-M（2.4B）	和聲優化	A100 上約 0.6 秒
第三階段	ACE-Step-1.5-S（780M）	精細細節打磨	A100 上約 0.4 秒

有哪些模型變體可用？它們之間如何比較？

ACE-Step 1.5 提供多種模型大小，以適應不同的硬體和品質需求，從研究級大型模型到輕量級消費級變體。

變體	參數	建議 GPU	生成品質	RTX 4090 速度
ACE-Step-1.5-L	5.5B	A100 / H100	最佳	約 4 秒
ACE-Step-1.5-M	2.4B	RTX 4090 / A10G	高	約 3 秒
ACE-Step-1.5-S	780M	RTX 3090 / RTX 4080	良好	約 2 秒
LoRA 模組	約 10-50M	RTX 4090	自訂風格	訓練：約 30 分鐘

LoRA 模組尤其值得關注，因為它允許使用者在特定類型、樂器或歌手資料上微調模型，且 GPU 記憶體需求極低。在 RTX 4090 上使用 50-100 個短音訊剪輯的資料集，一次完整的 LoRA 訓練約需 30 分鐘。

如何使用 ACE-Step 1.5 進行音樂生成？

開始使用 ACE-Step 1.5 非常簡單，根據工作流程提供多種介面選擇。

graph TD
    A[ACE-Step 1.5 使用方式] --> B[Gradio 網頁 UI]
    A --> C[Python API]
    A --> D[命令列]
    B --> E[文字轉音樂]
    B --> F[參考音訊轉音樂]
    C --> G[批次生成]
    C --> H[LoRA 訓練]
    D --> I[腳本整合]

Gradio 網頁介面提供直觀的方式來實驗模型，支援文字提示和參考音訊輸入。對開發者而言，Python API 提供程式化存取，適用於批次生成、自訂管線以及與大型應用整合。

生成模式	輸入	輸出	使用案例
文字轉音樂	“充滿活力的電子舞曲搭配合成貝斯”	完整歌曲	創意探索
參考音訊轉音樂	提示 + 30 秒音訊片段	風格延續	類型改編
LoRA 微調	自訂資料集 + 基礎模型	微調權重	個人化風格

常見問題

什麼是 ACE-Step 1.5？ ACE-Step 1.5 是由 ace-step 開發的開源音樂生成模型，採用串聯擴散轉換器，可在 NVIDIA A100 GPU 上於 2 秒內生成完整歌曲。支援文字轉音樂以及文字搭配參考音訊轉音樂兩種生成模式。

ACE-Step 1.5 的音樂生成速度有多快？ ACE-Step 1.5 在 A100 GPU 上生成一首完整的歌曲不到 2 秒，在消費級 RTX 4090 上則不到 7 秒。相較於前代版本，速度大幅提升，主要歸功於串聯擴散轉換器管線的架構優化。

有哪些模型變體可供選擇？ 該儲存庫提供數種變體：ACE-Step-1.5-L（大型，5.5B 參數）、ACE-Step-1.5-M（中型，2.4B 參數）、ACE-Step-1.5-S（小型，780M 參數），以及用於自訂訓練的 LoRA 模組。大型模型品質最佳，而較小的變體則在保真度與生成速度之間取得取捨。

ACE-Step 1.5 是否支援 LoRA 訓練？ 是的，ACE-Step 1.5 包含 LoRA（低秩適應）訓練支援，讓使用者能以最小的運算開銷在自訂音樂資料集上微調模型。如此一來，無需完整重新訓練模型即可實現個人化音樂生成風格。

ACE-Step 1.5 採用什麼授權？ ACE-Step 1.5 採用 MIT 授權釋出，對研究與商業使用完全開放。使用者可以自由使用、修改和散佈模型及其權重，無任何限制。

ACE-Step 1.5：開源音樂生成模型超越商業方案

ACE-Step 1.5 為何能如此快速地生成音樂？

有哪些模型變體可用？它們之間如何比較？

如何使用 ACE-Step 1.5 進行音樂生成？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

ACE-Step 1.5：開源音樂生成模型超越商業方案

ACE-Step 1.5 為何能如此快速地生成音樂？

有哪些模型變體可用？它們之間如何比較？

如何使用 ACE-Step 1.5 進行音樂生成？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲 凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險