VoxCPM2 es un modelo de texto a voz (TTS) sin tokenizador desarrollado por OpenBMB, una comunidad de investigacion de IA de codigo abierto afiliada a la Universidad Tsinghua y la Academia de Inteligencia Artificial de Beijing (BAAI). Con 2 mil millones de parametros, VoxCPM2 representa un cambio de paradigma en la sintesis de voz al operar directamente sobre representaciones continuas de voz, eliminando la necesidad de tokenizadores de audio discretos que normalmente degradan la calidad de la voz.
El modelo soporta mas de 30 idiomas con capacidades que abarcan clonacion de voz zero-shot, diseno de voz (creacion de voces completamente nuevas a partir de descripciones textuales) e inferencia de transmision en tiempo real. VoxCPM2 se ha convertido rapidamente en uno de los modelos TTS de codigo abierto mas comentados de 2026, compitiendo directamente con ofertas comerciales como ElevenLabs y OpenAI TTS, mientras permanece disponible gratuitamente bajo la licencia Apache 2.0.
Que hace diferente a VoxCPM2 de los modelos TTS tradicionales?
Los pipelines TTS tradicionales se basan en sistemas en cascada: el texto se convierte en caracteristicas linguisticas, luego en tokens de audio discretos y finalmente en formas de onda. Cada etapa introduce artefactos de compresion y perdida de informacion. La arquitectura sin tokenizador de VoxCPM2 procesa representaciones continuas de voz directamente utilizando un backbone de difusion de flujo, preservando toda la riqueza del habla natural incluyendo prosodia, emocion e identidad del hablante.
Versiones del Modelo y Especificaciones
| Variante del Modelo | Parametros | Idiomas | Caracteristica Clave |
|---|---|---|---|
| VoxCPM2-Base | 2B | 30+ | TTS multilingue completo |
| VoxCPM2-VoiceDesign | 2B | 30+ | Creacion de voz por texto |
| VoxCPM2-Streaming | 2B | 30+ | Salida en tiempo real |
| VoxCPM2-Light | ~600M | 10 | Ligero para despliegue en borde |
Diseno de Voz: Creando Voces a partir de Descripciones Textuales
Una de las caracteristicas mas innovadoras de VoxCPM2 es el diseno de voz. En lugar de requerir una muestra de audio de referencia para la clonacion, los usuarios pueden describir la voz deseada en lenguaje natural. Por ejemplo, “Una voz masculina calida y autoritaria con un ligero acento britanico” genera una voz a pedido. Esta capacidad rivaliza con ofertas comerciales de ElevenLabs y Play.ht, pero se ejecuta completamente en local sin costos de API.
flowchart LR
A[Entrada de Texto] --> B[Codificador de Voz]
B --> C[Espacio Latente]
D[Descripcion del Hablante] --> E[Codificador de Diseno]
E --> C
C --> F[Decodificador de Flujo]
F --> G[Salida de Onda]Idiomas Soportados y Rendimiento
| Familia de Idiomas | Idiomas | Calificacion de Calidad |
|---|---|---|
| Indo-Europea | Ingles, Espanol, Frances, Aleman, Portugues, Italiano, Ruso, Hindi, Urdu, Bengali | Excelente |
| Sino-Tibetana | Chino Mandarn, Canton, Tibetano, Birmano | Excelente |
| Japonesa/Coreana | Japones, Coreano | Muy Buena |
| Austronesia | Indones, Malayo, Tagalo, Vietnamita | Muy Buena |
| Afro-Asiatica | Arabe, Hebreo, Amharico | Buena |
| Turca | Turco, Uzbeko, Kazajo, Azeri | Buena |
Requisitos de Hardware para Ejecutar VoxCPM2
| Configuracion | Memoria de GPU | Velocidad de Inferencia (Factor de Tiempo Real) |
|---|---|---|
| Minima | 8 GB VRAM | ~0.3 RTF |
| Recomendada | 16 GB VRAM | ~0.15 RTF |
| Transmision en tiempo real | 24 GB VRAM | ~0.05 RTF (latencia <100ms) |
| CPU (ONNX) | 32 GB RAM | ~0.8 RTF |
El modelo se ejecuta eficientemente en GPUs de consumo como la NVIDIA RTX 4090, y la cuantizacion mediante bitsandbytes puede reducir los requisitos de memoria en un 40-50% con una perdida minima de calidad.
Como funciona la clonacion de voz zero-shot en VoxCPM2?
La clonacion zero-shot requiere un clip de audio de referencia de 3 a 10 segundos. VoxCPM2 extrae una incrustacion del hablante a partir de la referencia y condiciona el decodificador de flujo para generar voz que coincida con la voz de referencia. El proceso no requiere ajuste fino ni entrenamiento adicional, lo que lo hace ideal para aplicaciones como narracion de audiolibros, localizacion de contenido y asistentes de voz personalizados.
Puede VoxCPM2 ejecutarse en tiempo real?
Si. VoxCPM2 soporta inferencia de transmision con latencia inferior a 100ms en GPUs modernas. El modelo utiliza una estrategia de decodificacion paralela retardada donde el habla se genera en bloques superpuestos, permitiendo que el primer segmento de audio comience a reproducirse antes de que el resto del enunciado se haya generado completamente. Esto lo hace adecuado para asistentes de voz en vivo, traduccion en tiempo real y sistemas de dialogo interactivos.
sequenceDiagram
participant User as Usuario
participant Model as VoxCPM2
participant Speaker as Codif. de Voz
participant Audio as Salida de Audio
User->>Model: Proporcionar texto + audio de referencia
Model->>Speaker: Extraer incrustacion del hablante
Speaker-->>Model: Vector del hablante
Note over Model: Generar bloque 1
Model->>Audio: Transmitir bloque 1 (latencia 50ms)
Note over Model: Generar bloque 2 (paralelo)
Model->>Audio: Transmitir bloque 2
Note over Model: Continuar hasta completar
Audio-->>User: Salida de voz completaCual es la licencia y como puedo usarlo?
VoxCPM2 se publica bajo la licencia Apache 2.0, permitiendo su uso gratuito para fines comerciales y de investigacion. Los pesos del modelo estan alojados en Hugging Face. El equipo proporciona una interfaz web Gradio para experimentacion facil y una API de Python para uso programatico. La instalacion requiere Python 3.10+ y PyTorch 2.0+.
Preguntas Frecuentes
Que es VoxCPM? VoxCPM2 es un modelo TTS sin tokenizador de OpenBMB que genera voz natural en mas de 30 idiomas utilizando representaciones continuas de voz.
Que versiones del modelo estan disponibles? El proyecto ofrece VoxCPM2-Base (2B, multilingue), VoxCPM2-Light (600M, 10 idiomas), VoxCPM2-VoiceDesign (texto a voz) y VoxCPM2-Streaming (tiempo real).
Como funciona el diseno de voz? Los usuarios describen la voz deseada en lenguaje natural (ej., “voz femenina cálida con acento sureño”) y el modelo genera voz que coincide con esa descripcion sin audio de referencia.
Que idiomas estan soportados? Mas de 30 idiomas incluyendo ingles, chino, japones, coreano, espanol, frances, aleman, arabe, hindi y muchos mas.
Cuales son los requisitos de hardware? Minimo 8 GB VRAM para inferencia, 16 GB recomendado para calidad optima y 24 GB para transmision en tiempo real. La inferencia en CPU es posible con exportacion ONNX.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!