AI 音樂生成領域過去由 Suno 和 Udio 等商業服務主導,但開源生態系迎來了一位強勁的挑戰者。ACE-Step 1.5 是一款串聯擴散轉換器模型,能在 2 秒內生成完整歌曲,同時支援在消費級 GPU 上進行 LoRA 微調——這種速度、品質與可及性的組合,在開源音樂生成領域前所未見。
由 ace-step 開發的 1.5 版本相較前代有了飛躍性的進步。該模型採用串聯架構,多個擴散轉換器依序協作,從粗略結構到精細細節逐步優化音訊輸出。這種方法使 ACE-Step 1.5 能達到與商業替代方案競爭的生成品質,同時以 MIT 授權保持完全開源。
該儲存庫提供預訓練權重、推論腳本、Gradio 網頁介面,以及涵蓋訓練、微調與部署的完整文件。模型大小從 780M 到 5.5B 參數不等,使用者可根據硬體選擇品質與速度的最佳平衡。
ACE-Step 1.5 為何能如此快速地生成音樂?
ACE-Step 1.5 的速度祕訣在於其串聯擴散轉換器架構,以及經過優化的推論管線,能以最少的擴散步驟數產生高品質輸出。
graph LR
A[文字提示] --> B[文字編碼器]
B --> C[串聯擴散轉換器 L]
C --> D[串聯擴散轉換器 M]
D --> E[串聯擴散轉換器 S]
E --> F[聲碼器 / 解碼器]
F --> G[音訊輸出]
H[參考音訊] --> I[音訊編碼器]
I --> C
G --> J[A100 上不到 2 秒]
串聯設計意味著每個子模型都會對前一個階段的輸出進行優化。大型轉換器(L)建立整體音樂結構,中型轉換器(M)加入和聲細節,小型轉換器(S)則打磨精細的音訊品質。這種逐步優化遠比一次生成高品質音訊更有效率。
| 階段 | 模型大小 | 用途 | 約略推論時間 |
|---|---|---|---|
| 第一階段 | ACE-Step-1.5-L(5.5B) | 粗略結構生成 | A100 上約 0.8 秒 |
| 第二階段 | ACE-Step-1.5-M(2.4B) | 和聲優化 | A100 上約 0.6 秒 |
| 第三階段 | ACE-Step-1.5-S(780M) | 精細細節打磨 | A100 上約 0.4 秒 |
有哪些模型變體可用?它們之間如何比較?
ACE-Step 1.5 提供多種模型大小,以適應不同的硬體和品質需求,從研究級大型模型到輕量級消費級變體。
| 變體 | 參數 | 建議 GPU | 生成品質 | RTX 4090 速度 |
|---|---|---|---|---|
| ACE-Step-1.5-L | 5.5B | A100 / H100 | 最佳 | 約 4 秒 |
| ACE-Step-1.5-M | 2.4B | RTX 4090 / A10G | 高 | 約 3 秒 |
| ACE-Step-1.5-S | 780M | RTX 3090 / RTX 4080 | 良好 | 約 2 秒 |
| LoRA 模組 | 約 10-50M | RTX 4090 | 自訂風格 | 訓練:約 30 分鐘 |
LoRA 模組尤其值得關注,因為它允許使用者在特定類型、樂器或歌手資料上微調模型,且 GPU 記憶體需求極低。在 RTX 4090 上使用 50-100 個短音訊剪輯的資料集,一次完整的 LoRA 訓練約需 30 分鐘。
如何使用 ACE-Step 1.5 進行音樂生成?
開始使用 ACE-Step 1.5 非常簡單,根據工作流程提供多種介面選擇。
graph TD
A[ACE-Step 1.5 使用方式] --> B[Gradio 網頁 UI]
A --> C[Python API]
A --> D[命令列]
B --> E[文字轉音樂]
B --> F[參考音訊轉音樂]
C --> G[批次生成]
C --> H[LoRA 訓練]
D --> I[腳本整合]
Gradio 網頁介面提供直觀的方式來實驗模型,支援文字提示和參考音訊輸入。對開發者而言,Python API 提供程式化存取,適用於批次生成、自訂管線以及與大型應用整合。
| 生成模式 | 輸入 | 輸出 | 使用案例 |
|---|---|---|---|
| 文字轉音樂 | “充滿活力的電子舞曲搭配合成貝斯” | 完整歌曲 | 創意探索 |
| 參考音訊轉音樂 | 提示 + 30 秒音訊片段 | 風格延續 | 類型改編 |
| LoRA 微調 | 自訂資料集 + 基礎模型 | 微調權重 | 個人化風格 |
常見問題
什麼是 ACE-Step 1.5? ACE-Step 1.5 是由 ace-step 開發的開源音樂生成模型,採用串聯擴散轉換器,可在 NVIDIA A100 GPU 上於 2 秒內生成完整歌曲。支援文字轉音樂以及文字搭配參考音訊轉音樂兩種生成模式。
ACE-Step 1.5 的音樂生成速度有多快? ACE-Step 1.5 在 A100 GPU 上生成一首完整的歌曲不到 2 秒,在消費級 RTX 4090 上則不到 7 秒。相較於前代版本,速度大幅提升,主要歸功於串聯擴散轉換器管線的架構優化。
有哪些模型變體可供選擇? 該儲存庫提供數種變體:ACE-Step-1.5-L(大型,5.5B 參數)、ACE-Step-1.5-M(中型,2.4B 參數)、ACE-Step-1.5-S(小型,780M 參數),以及用於自訂訓練的 LoRA 模組。大型模型品質最佳,而較小的變體則在保真度與生成速度之間取得取捨。
ACE-Step 1.5 是否支援 LoRA 訓練? 是的,ACE-Step 1.5 包含 LoRA(低秩適應)訓練支援,讓使用者能以最小的運算開銷在自訂音樂資料集上微調模型。如此一來,無需完整重新訓練模型即可實現個人化音樂生成風格。
ACE-Step 1.5 採用什麼授權? ACE-Step 1.5 採用 MIT 授權釋出,對研究與商業使用完全開放。使用者可以自由使用、修改和散佈模型及其權重,無任何限制。
延伸閱讀
- ACE-Step GitHub 儲存庫 – 原始碼、權重與文件
- ACE-Step 1.5 Hugging Face 模型 – 預訓練模型權重與 LoRA 模組
- 串聯擴散模型解析 – 串聯擴散架構研究論文
- LoRA 微調指南 – Hugging Face 的 LoRA 適配指南
- ACE-Step 1.5 展示畫廊 – 音訊樣本與商業方案比較
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!