ACE-Step 1.5: Modelo de Generacion Musical Open-Source que Supera Soluciones Comerciales

Q: "Que es ACE-Step 1.5?"

"ACE-Step 1.5 es un modelo open-source de generacion musical desarrollado por ace-step que utiliza transformadores de difusion en cascada para generar canciones completas en menos de 2 segundos en una GPU NVIDIA A100. Soporta generacion de texto a musica y de texto con referencia a musica."

Q: "Que tan rapido es ACE-Step 1.5 generando musica?"

"ACE-Step 1.5 genera una cancion completa en menos de 2 segundos en una GPU A100 y en menos de 7 segundos en una RTX 4090 de consumo. Esta mejora dramatica de velocidad respecto a versiones anteriores proviene de optimizaciones arquitectonicas en el pipeline del transformador de difusion en cascada."

Q: "Que variantes del modelo estan disponibles?"

"El repositorio ofrece varias variantes: ACE-Step-1.5-L (grande, 5.5B parametros), ACE-Step-1.5-M (mediano, 2.4B parametros), ACE-Step-1.5-S (pequeno, 780M parametros) y el modulo LoRA para entrenamiento personalizado. El modelo grande proporciona la maxima calidad, mientras que las variantes mas pequenas intercambian fidelidad por velocidad."

Q: "ACE-Step 1.5 soporta entrenamiento LoRA?"

"Si, ACE-Step 1.5 incluye soporte para entrenamiento LoRA (Adaptacion de Bajo Rango), permitiendo a los usuarios ajustar el modelo en conjuntos de datos musicales personalizados con una sobrecarga computacional minima. Esto permite estilos de generacion musical personalizados sin necesidad de reentrenar el modelo completo."

Q: "Cual es la licencia de ACE-Step 1.5?"

"ACE-Step 1.5 se publica bajo la Licencia MIT, lo que lo hace completamente permisivo tanto para uso comercial como de investigacion. Los usuarios pueden usar, modificar y distribuir libremente el modelo y sus pesos sin restricciones."

ACE-Step 1.5 es un modelo open-source de generacion musical que crea canciones completas en menos de 2 segundos, con entrenamiento LoRA y soporte para GPU de consumo.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 04, 2026 5 min de lectura

El panorama de la generacion musical con IA ha estado dominado por servicios comerciales como Suno y Udio, pero el ecosistema open-source acaba de recibir un poderoso desafiante. ACE-Step 1.5 es un modelo de transformador de difusion en cascada que genera canciones completas en menos de 2 segundos mientras soporta ajuste fino LoRA en GPU de consumo – una combinacion de velocidad, calidad y accesibilidad que no se habia visto antes en la generacion musical open-source.

Desarrollado por ace-step, la version 1.5 representa un salto significativo sobre su predecesor. El modelo utiliza una arquitectura en cascada donde multiples transformadores de difusion trabajan en secuencia para refinar progresivamente la salida de audio, desde la estructura gruesa hasta el detalle fino. Este enfoque permite a ACE-Step 1.5 alcanzar una calidad de generacion que rivaliza con alternativas comerciales, manteniendose completamente open-source bajo la Licencia MIT.

El repositorio proporciona pesos preentrenados, scripts de inferencia, una interfaz web Gradio y documentacion completa para entrenamiento, ajuste fino e implementacion. Con tamanos de modelo que van desde 780M hasta 5.5B parametros, los usuarios pueden elegir el equilibrio adecuado entre calidad y velocidad para su hardware.

Como Genera Musica ACE-Step 1.5 Tan Rapidamente?

El secreto de la velocidad de ACE-Step 1.5 reside en su arquitectura de transformador de difusion en cascada y un pipeline de inferencia optimizado que minimiza la cantidad de pasos de difusion necesarios para una salida de alta calidad.

graph LR
    A[Prompt de Texto] --> B[Codificador de Texto]
    B --> C[Transformador de Difusion en Cascada L]
    C --> D[Transformador de Difusion en Cascada M]
    D --> E[Transformador de Difusion en Cascada S]
    E --> F[Vocoder / Decodificador]
    F --> G[Salida de Audio]
    H[Audio de Referencia] --> I[Codificador de Audio]
    I --> C
    G --> J[< 2 segundos en A100]

El diseno en cascada significa que cada submodelo refina la salida de la etapa anterior. El transformador grande (L) establece la estructura musical general, el transformador mediano (M) agrega detalle armonico y el transformador pequeno (S) pule la calidad de audio de grano fino. Este refinamiento progresivo es mucho mas eficiente que generar audio de alta calidad en un solo paso.

Etapa	Tamano del Modelo	Proposito	Tiempo de Inferencia Aproximado
Primera	ACE-Step-1.5-L (5.5B)	Generacion de estructura gruesa	~0.8s en A100
Segunda	ACE-Step-1.5-M (2.4B)	Refinamiento armonico	~0.6s en A100
Tercera	ACE-Step-1.5-S (780M)	Pulido de detalles finos	~0.4s en A100

Que Variantes del Modelo Estan Disponibles y Como se Comparan?

ACE-Step 1.5 ofrece multiples tamanos de modelo para adaptarse a diferentes requisitos de hardware y calidad, desde modelos grandes de nivel de investigacion hasta variantes ligeras para consumo.

Variante	Parametros	GPU Recomendada	Calidad de Generacion	Velocidad en RTX 4090
ACE-Step-1.5-L	5.5B	A100 / H100	Mejor	~4s
ACE-Step-1.5-M	2.4B	RTX 4090 / A10G	Alta	~3s
ACE-Step-1.5-S	780M	RTX 3090 / RTX 4080	Buena	~2s
Modulo LoRA	~10-50M	RTX 4090	Estilos personalizados	Entrenamiento: ~30 min

El modulo LoRA es particularmente notable porque permite a los usuarios ajustar el modelo en generos, instrumentos o artistas especificos con requisitos minimos de memoria GPU. Una ejecucion completa de entrenamiento LoRA se completa en aproximadamente 30 minutos en una RTX 4090 con un conjunto de datos de 50-100 clips de audio cortos.

Como Usar ACE-Step 1.5 para Generar Musica?

Comenzar con ACE-Step 1.5 es sencillo, con multiples interfaces disponibles segun su flujo de trabajo.

graph TD
    A[Uso de ACE-Step 1.5] --> B[Interfaz Web Gradio]
    A --> C[API de Python]
    A --> D[Linea de Comandos]
    B --> E[Texto a Musica]
    B --> F[Referencia a Musica]
    C --> G[Generacion por Lotes]
    C --> H[Entrenamiento LoRA]
    D --> I[Integracion con Scripts]

La interfaz web Gradio proporciona una forma intuitiva de experimentar con el modelo, admitiendo tanto prompts de texto como entradas de audio de referencia. Para desarrolladores, la API de Python ofrece acceso programatico para generacion por lotes, pipelines personalizados e integracion con aplicaciones mas grandes.

Modo de Generacion	Entrada	Salida	Caso de Uso
Texto a Musica	“Musica electronica alegre con bajo sintetizado”	Cancion completa	Exploracion creativa
Referencia a Musica	Prompt + clip de audio de 30s	Continuacion estilizada	Adaptacion de genero
Ajuste Fino LoRA	Conjunto de datos personalizado + modelo base	Pesos ajustados	Estilos personalizados

FAQ

Que es ACE-Step 1.5? ACE-Step 1.5 es un modelo open-source de generacion musical desarrollado por ace-step que utiliza transformadores de difusion en cascada para generar canciones completas en menos de 2 segundos en una GPU NVIDIA A100. Soporta generacion de texto a musica y de texto con referencia a musica.

Que tan rapido es ACE-Step 1.5 generando musica? ACE-Step 1.5 genera una cancion completa en menos de 2 segundos en una GPU A100 y en menos de 7 segundos en una RTX 4090 de consumo. Esta mejora dramatica de velocidad respecto a versiones anteriores proviene de optimizaciones arquitectonicas.

Que variantes del modelo estan disponibles? El repositorio ofrece varias variantes: ACE-Step-1.5-L (grande, 5.5B), ACE-Step-1.5-M (mediano, 2.4B), ACE-Step-1.5-S (pequeno, 780M) y el modulo LoRA. El modelo grande ofrece la maxima calidad.

ACE-Step 1.5 soporta entrenamiento LoRA? Si, ACE-Step 1.5 incluye soporte para entrenamiento LoRA, permitiendo ajustar el modelo en conjuntos de datos musicales personalizados con minima sobrecarga computacional.

Cual es la licencia de ACE-Step 1.5? ACE-Step 1.5 se publica bajo la Licencia MIT, completamente permisivo para uso comercial y de investigacion.

Lecturas Adicionales

Repositorio GitHub de ACE-Step – Codigo fuente, pesos y documentacion
Modelo ACE-Step 1.5 en Hugging Face – Pesos del modelo preentrenado y modulos LoRA
Modelos de Difusion en Cascada Explicados – Articulo de investigacion sobre arquitectura de difusion en cascada
Guia de Ajuste Fino LoRA – Guia de Hugging Face para adaptacion LoRA
Galeria de Demos de ACE-Step 1.5 – Muestras de audio y comparaciones con soluciones comerciales

ACE-Step 1.5: Modelo de Generacion Musical Open-Source que Supera Soluciones Comerciales

Como Genera Musica ACE-Step 1.5 Tan Rapidamente?

Que Variantes del Modelo Estan Disponibles y Como se Comparan?

Como Usar ACE-Step 1.5 para Generar Musica?

FAQ

Lecturas Adicionales

LATEST POST

Workday, Anthropic y LISC lanzan aceleradora de solopreneurs con IA

Sensor Tower adquiere AppMagic para reforzar su línea de análisis para pymes

Musk, Cook y Fink se espera que se unan a la delegación de Trump en Pekín esta s

TAG

CATEGORIES