IA

ACE-Step 1.5: Modelo de Generacion Musical Open-Source que Supera Soluciones Comerciales

ACE-Step 1.5 es un modelo open-source de generacion musical que crea canciones completas en menos de 2 segundos, con entrenamiento LoRA y soporte para GPU de consumo.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
ACE-Step 1.5: Modelo de Generacion Musical Open-Source que Supera Soluciones Comerciales

El panorama de la generacion musical con IA ha estado dominado por servicios comerciales como Suno y Udio, pero el ecosistema open-source acaba de recibir un poderoso desafiante. ACE-Step 1.5 es un modelo de transformador de difusion en cascada que genera canciones completas en menos de 2 segundos mientras soporta ajuste fino LoRA en GPU de consumo – una combinacion de velocidad, calidad y accesibilidad que no se habia visto antes en la generacion musical open-source.

Desarrollado por ace-step, la version 1.5 representa un salto significativo sobre su predecesor. El modelo utiliza una arquitectura en cascada donde multiples transformadores de difusion trabajan en secuencia para refinar progresivamente la salida de audio, desde la estructura gruesa hasta el detalle fino. Este enfoque permite a ACE-Step 1.5 alcanzar una calidad de generacion que rivaliza con alternativas comerciales, manteniendose completamente open-source bajo la Licencia MIT.

El repositorio proporciona pesos preentrenados, scripts de inferencia, una interfaz web Gradio y documentacion completa para entrenamiento, ajuste fino e implementacion. Con tamanos de modelo que van desde 780M hasta 5.5B parametros, los usuarios pueden elegir el equilibrio adecuado entre calidad y velocidad para su hardware.


Como Genera Musica ACE-Step 1.5 Tan Rapidamente?

El secreto de la velocidad de ACE-Step 1.5 reside en su arquitectura de transformador de difusion en cascada y un pipeline de inferencia optimizado que minimiza la cantidad de pasos de difusion necesarios para una salida de alta calidad.

graph LR
    A[Prompt de Texto] --> B[Codificador de Texto]
    B --> C[Transformador de Difusion en Cascada L]
    C --> D[Transformador de Difusion en Cascada M]
    D --> E[Transformador de Difusion en Cascada S]
    E --> F[Vocoder / Decodificador]
    F --> G[Salida de Audio]
    H[Audio de Referencia] --> I[Codificador de Audio]
    I --> C
    G --> J[< 2 segundos en A100]

El diseno en cascada significa que cada submodelo refina la salida de la etapa anterior. El transformador grande (L) establece la estructura musical general, el transformador mediano (M) agrega detalle armonico y el transformador pequeno (S) pule la calidad de audio de grano fino. Este refinamiento progresivo es mucho mas eficiente que generar audio de alta calidad en un solo paso.

EtapaTamano del ModeloPropositoTiempo de Inferencia Aproximado
PrimeraACE-Step-1.5-L (5.5B)Generacion de estructura gruesa~0.8s en A100
SegundaACE-Step-1.5-M (2.4B)Refinamiento armonico~0.6s en A100
TerceraACE-Step-1.5-S (780M)Pulido de detalles finos~0.4s en A100

Que Variantes del Modelo Estan Disponibles y Como se Comparan?

ACE-Step 1.5 ofrece multiples tamanos de modelo para adaptarse a diferentes requisitos de hardware y calidad, desde modelos grandes de nivel de investigacion hasta variantes ligeras para consumo.

VarianteParametrosGPU RecomendadaCalidad de GeneracionVelocidad en RTX 4090
ACE-Step-1.5-L5.5BA100 / H100Mejor~4s
ACE-Step-1.5-M2.4BRTX 4090 / A10GAlta~3s
ACE-Step-1.5-S780MRTX 3090 / RTX 4080Buena~2s
Modulo LoRA~10-50MRTX 4090Estilos personalizadosEntrenamiento: ~30 min

El modulo LoRA es particularmente notable porque permite a los usuarios ajustar el modelo en generos, instrumentos o artistas especificos con requisitos minimos de memoria GPU. Una ejecucion completa de entrenamiento LoRA se completa en aproximadamente 30 minutos en una RTX 4090 con un conjunto de datos de 50-100 clips de audio cortos.


Como Usar ACE-Step 1.5 para Generar Musica?

Comenzar con ACE-Step 1.5 es sencillo, con multiples interfaces disponibles segun su flujo de trabajo.

graph TD
    A[Uso de ACE-Step 1.5] --> B[Interfaz Web Gradio]
    A --> C[API de Python]
    A --> D[Linea de Comandos]
    B --> E[Texto a Musica]
    B --> F[Referencia a Musica]
    C --> G[Generacion por Lotes]
    C --> H[Entrenamiento LoRA]
    D --> I[Integracion con Scripts]

La interfaz web Gradio proporciona una forma intuitiva de experimentar con el modelo, admitiendo tanto prompts de texto como entradas de audio de referencia. Para desarrolladores, la API de Python ofrece acceso programatico para generacion por lotes, pipelines personalizados e integracion con aplicaciones mas grandes.

Modo de GeneracionEntradaSalidaCaso de Uso
Texto a Musica“Musica electronica alegre con bajo sintetizado”Cancion completaExploracion creativa
Referencia a MusicaPrompt + clip de audio de 30sContinuacion estilizadaAdaptacion de genero
Ajuste Fino LoRAConjunto de datos personalizado + modelo basePesos ajustadosEstilos personalizados

FAQ

Que es ACE-Step 1.5? ACE-Step 1.5 es un modelo open-source de generacion musical desarrollado por ace-step que utiliza transformadores de difusion en cascada para generar canciones completas en menos de 2 segundos en una GPU NVIDIA A100. Soporta generacion de texto a musica y de texto con referencia a musica.

Que tan rapido es ACE-Step 1.5 generando musica? ACE-Step 1.5 genera una cancion completa en menos de 2 segundos en una GPU A100 y en menos de 7 segundos en una RTX 4090 de consumo. Esta mejora dramatica de velocidad respecto a versiones anteriores proviene de optimizaciones arquitectonicas.

Que variantes del modelo estan disponibles? El repositorio ofrece varias variantes: ACE-Step-1.5-L (grande, 5.5B), ACE-Step-1.5-M (mediano, 2.4B), ACE-Step-1.5-S (pequeno, 780M) y el modulo LoRA. El modelo grande ofrece la maxima calidad.

ACE-Step 1.5 soporta entrenamiento LoRA? Si, ACE-Step 1.5 incluye soporte para entrenamiento LoRA, permitiendo ajustar el modelo en conjuntos de datos musicales personalizados con minima sobrecarga computacional.

Cual es la licencia de ACE-Step 1.5? ACE-Step 1.5 se publica bajo la Licencia MIT, completamente permisivo para uso comercial y de investigacion.


Lecturas Adicionales

TAG
CATEGORIES