VoxCPM2: Sintesis de Voz Multilingue Sin Tokenizador de OpenBMB

VoxCPM2 es un modelo TTS de 2B parametros sin tokenizador desarrollado por OpenBMB que soporta 30 idiomas con diseno de voz, clonacion de voz y transmision en tiempo real.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 03, 2026 5 min de lectura

VoxCPM2 es un modelo de texto a voz (TTS) sin tokenizador desarrollado por OpenBMB, una comunidad de investigacion de IA de codigo abierto afiliada a la Universidad Tsinghua y la Academia de Inteligencia Artificial de Beijing (BAAI). Con 2 mil millones de parametros, VoxCPM2 representa un cambio de paradigma en la sintesis de voz al operar directamente sobre representaciones continuas de voz, eliminando la necesidad de tokenizadores de audio discretos que normalmente degradan la calidad de la voz.

El modelo soporta mas de 30 idiomas con capacidades que abarcan clonacion de voz zero-shot, diseno de voz (creacion de voces completamente nuevas a partir de descripciones textuales) e inferencia de transmision en tiempo real. VoxCPM2 se ha convertido rapidamente en uno de los modelos TTS de codigo abierto mas comentados de 2026, compitiendo directamente con ofertas comerciales como ElevenLabs y OpenAI TTS, mientras permanece disponible gratuitamente bajo la licencia Apache 2.0.

Que hace diferente a VoxCPM2 de los modelos TTS tradicionales?

Los pipelines TTS tradicionales se basan en sistemas en cascada: el texto se convierte en caracteristicas linguisticas, luego en tokens de audio discretos y finalmente en formas de onda. Cada etapa introduce artefactos de compresion y perdida de informacion. La arquitectura sin tokenizador de VoxCPM2 procesa representaciones continuas de voz directamente utilizando un backbone de difusion de flujo, preservando toda la riqueza del habla natural incluyendo prosodia, emocion e identidad del hablante.

Versiones del Modelo y Especificaciones

Variante del Modelo	Parametros	Idiomas	Caracteristica Clave
VoxCPM2-Base	2B	30+	TTS multilingue completo
VoxCPM2-VoiceDesign	2B	30+	Creacion de voz por texto
VoxCPM2-Streaming	2B	30+	Salida en tiempo real
VoxCPM2-Light	~600M	10	Ligero para despliegue en borde

Diseno de Voz: Creando Voces a partir de Descripciones Textuales

Una de las caracteristicas mas innovadoras de VoxCPM2 es el diseno de voz. En lugar de requerir una muestra de audio de referencia para la clonacion, los usuarios pueden describir la voz deseada en lenguaje natural. Por ejemplo, “Una voz masculina calida y autoritaria con un ligero acento britanico” genera una voz a pedido. Esta capacidad rivaliza con ofertas comerciales de ElevenLabs y Play.ht, pero se ejecuta completamente en local sin costos de API.

flowchart LR
    A[Entrada de Texto] --> B[Codificador de Voz]
    B --> C[Espacio Latente]
    D[Descripcion del Hablante] --> E[Codificador de Diseno]
    E --> C
    C --> F[Decodificador de Flujo]
    F --> G[Salida de Onda]

Idiomas Soportados y Rendimiento

Familia de Idiomas	Idiomas	Calificacion de Calidad
Indo-Europea	Ingles, Espanol, Frances, Aleman, Portugues, Italiano, Ruso, Hindi, Urdu, Bengali	Excelente
Sino-Tibetana	Chino Mandarn, Canton, Tibetano, Birmano	Excelente
Japonesa/Coreana	Japones, Coreano	Muy Buena
Austronesia	Indones, Malayo, Tagalo, Vietnamita	Muy Buena
Afro-Asiatica	Arabe, Hebreo, Amharico	Buena
Turca	Turco, Uzbeko, Kazajo, Azeri	Buena

Requisitos de Hardware para Ejecutar VoxCPM2

Configuracion	Memoria de GPU	Velocidad de Inferencia (Factor de Tiempo Real)
Minima	8 GB VRAM	~0.3 RTF
Recomendada	16 GB VRAM	~0.15 RTF
Transmision en tiempo real	24 GB VRAM	~0.05 RTF (latencia <100ms)
CPU (ONNX)	32 GB RAM	~0.8 RTF

El modelo se ejecuta eficientemente en GPUs de consumo como la NVIDIA RTX 4090, y la cuantizacion mediante bitsandbytes puede reducir los requisitos de memoria en un 40-50% con una perdida minima de calidad.

Como funciona la clonacion de voz zero-shot en VoxCPM2?

La clonacion zero-shot requiere un clip de audio de referencia de 3 a 10 segundos. VoxCPM2 extrae una incrustacion del hablante a partir de la referencia y condiciona el decodificador de flujo para generar voz que coincida con la voz de referencia. El proceso no requiere ajuste fino ni entrenamiento adicional, lo que lo hace ideal para aplicaciones como narracion de audiolibros, localizacion de contenido y asistentes de voz personalizados.

Puede VoxCPM2 ejecutarse en tiempo real?

Si. VoxCPM2 soporta inferencia de transmision con latencia inferior a 100ms en GPUs modernas. El modelo utiliza una estrategia de decodificacion paralela retardada donde el habla se genera en bloques superpuestos, permitiendo que el primer segmento de audio comience a reproducirse antes de que el resto del enunciado se haya generado completamente. Esto lo hace adecuado para asistentes de voz en vivo, traduccion en tiempo real y sistemas de dialogo interactivos.

sequenceDiagram
    participant User as Usuario
    participant Model as VoxCPM2
    participant Speaker as Codif. de Voz
    participant Audio as Salida de Audio

    User->>Model: Proporcionar texto + audio de referencia
    Model->>Speaker: Extraer incrustacion del hablante
    Speaker-->>Model: Vector del hablante
    Note over Model: Generar bloque 1
    Model->>Audio: Transmitir bloque 1 (latencia 50ms)
    Note over Model: Generar bloque 2 (paralelo)
    Model->>Audio: Transmitir bloque 2
    Note over Model: Continuar hasta completar
    Audio-->>User: Salida de voz completa

Cual es la licencia y como puedo usarlo?

VoxCPM2 se publica bajo la licencia Apache 2.0, permitiendo su uso gratuito para fines comerciales y de investigacion. Los pesos del modelo estan alojados en Hugging Face. El equipo proporciona una interfaz web Gradio para experimentacion facil y una API de Python para uso programatico. La instalacion requiere Python 3.10+ y PyTorch 2.0+.

Preguntas Frecuentes

Que es VoxCPM? VoxCPM2 es un modelo TTS sin tokenizador de OpenBMB que genera voz natural en mas de 30 idiomas utilizando representaciones continuas de voz.

Que versiones del modelo estan disponibles? El proyecto ofrece VoxCPM2-Base (2B, multilingue), VoxCPM2-Light (600M, 10 idiomas), VoxCPM2-VoiceDesign (texto a voz) y VoxCPM2-Streaming (tiempo real).

Como funciona el diseno de voz? Los usuarios describen la voz deseada en lenguaje natural (ej., “voz femenina cálida con acento sureño”) y el modelo genera voz que coincide con esa descripcion sin audio de referencia.

Que idiomas estan soportados? Mas de 30 idiomas incluyendo ingles, chino, japones, coreano, espanol, frances, aleman, arabe, hindi y muchos mas.

Cuales son los requisitos de hardware? Minimo 8 GB VRAM para inferencia, 16 GB recomendado para calidad optima y 24 GB para transmision en tiempo real. La inferencia en CPU es posible con exportacion ONNX.

VoxCPM2: Sintesis de Voz Multilingue Sin Tokenizador de OpenBMB

Que hace diferente a VoxCPM2 de los modelos TTS tradicionales?

Versiones del Modelo y Especificaciones

Diseno de Voz: Creando Voces a partir de Descripciones Textuales

Idiomas Soportados y Rendimiento

Requisitos de Hardware para Ejecutar VoxCPM2

Como funciona la clonacion de voz zero-shot en VoxCPM2?

Puede VoxCPM2 ejecutarse en tiempo real?

Cual es la licencia y como puedo usarlo?

Preguntas Frecuentes

Lecturas Adicionales

LATEST POST

Workday, Anthropic y LISC lanzan aceleradora de solopreneurs con IA

Sensor Tower adquiere AppMagic para reforzar su línea de análisis para pymes

Musk, Cook y Fink se espera que se unan a la delegación de Trump en Pekín esta s

TAG

CATEGORIES