IA

VoxCPM2: Sintesis de Voz Multilingue Sin Tokenizador de OpenBMB

VoxCPM2 es un modelo TTS de 2B parametros sin tokenizador desarrollado por OpenBMB que soporta 30 idiomas con diseno de voz, clonacion de voz y transmision en tiempo real.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
VoxCPM2: Sintesis de Voz Multilingue Sin Tokenizador de OpenBMB

VoxCPM2 es un modelo de texto a voz (TTS) sin tokenizador desarrollado por OpenBMB, una comunidad de investigacion de IA de codigo abierto afiliada a la Universidad Tsinghua y la Academia de Inteligencia Artificial de Beijing (BAAI). Con 2 mil millones de parametros, VoxCPM2 representa un cambio de paradigma en la sintesis de voz al operar directamente sobre representaciones continuas de voz, eliminando la necesidad de tokenizadores de audio discretos que normalmente degradan la calidad de la voz.

El modelo soporta mas de 30 idiomas con capacidades que abarcan clonacion de voz zero-shot, diseno de voz (creacion de voces completamente nuevas a partir de descripciones textuales) e inferencia de transmision en tiempo real. VoxCPM2 se ha convertido rapidamente en uno de los modelos TTS de codigo abierto mas comentados de 2026, compitiendo directamente con ofertas comerciales como ElevenLabs y OpenAI TTS, mientras permanece disponible gratuitamente bajo la licencia Apache 2.0.

Que hace diferente a VoxCPM2 de los modelos TTS tradicionales?

Los pipelines TTS tradicionales se basan en sistemas en cascada: el texto se convierte en caracteristicas linguisticas, luego en tokens de audio discretos y finalmente en formas de onda. Cada etapa introduce artefactos de compresion y perdida de informacion. La arquitectura sin tokenizador de VoxCPM2 procesa representaciones continuas de voz directamente utilizando un backbone de difusion de flujo, preservando toda la riqueza del habla natural incluyendo prosodia, emocion e identidad del hablante.

Versiones del Modelo y Especificaciones

Variante del ModeloParametrosIdiomasCaracteristica Clave
VoxCPM2-Base2B30+TTS multilingue completo
VoxCPM2-VoiceDesign2B30+Creacion de voz por texto
VoxCPM2-Streaming2B30+Salida en tiempo real
VoxCPM2-Light~600M10Ligero para despliegue en borde

Diseno de Voz: Creando Voces a partir de Descripciones Textuales

Una de las caracteristicas mas innovadoras de VoxCPM2 es el diseno de voz. En lugar de requerir una muestra de audio de referencia para la clonacion, los usuarios pueden describir la voz deseada en lenguaje natural. Por ejemplo, “Una voz masculina calida y autoritaria con un ligero acento britanico” genera una voz a pedido. Esta capacidad rivaliza con ofertas comerciales de ElevenLabs y Play.ht, pero se ejecuta completamente en local sin costos de API.

Idiomas Soportados y Rendimiento

Familia de IdiomasIdiomasCalificacion de Calidad
Indo-EuropeaIngles, Espanol, Frances, Aleman, Portugues, Italiano, Ruso, Hindi, Urdu, BengaliExcelente
Sino-TibetanaChino Mandarn, Canton, Tibetano, BirmanoExcelente
Japonesa/CoreanaJapones, CoreanoMuy Buena
AustronesiaIndones, Malayo, Tagalo, VietnamitaMuy Buena
Afro-AsiaticaArabe, Hebreo, AmharicoBuena
TurcaTurco, Uzbeko, Kazajo, AzeriBuena

Requisitos de Hardware para Ejecutar VoxCPM2

ConfiguracionMemoria de GPUVelocidad de Inferencia (Factor de Tiempo Real)
Minima8 GB VRAM~0.3 RTF
Recomendada16 GB VRAM~0.15 RTF
Transmision en tiempo real24 GB VRAM~0.05 RTF (latencia <100ms)
CPU (ONNX)32 GB RAM~0.8 RTF

El modelo se ejecuta eficientemente en GPUs de consumo como la NVIDIA RTX 4090, y la cuantizacion mediante bitsandbytes puede reducir los requisitos de memoria en un 40-50% con una perdida minima de calidad.

Como funciona la clonacion de voz zero-shot en VoxCPM2?

La clonacion zero-shot requiere un clip de audio de referencia de 3 a 10 segundos. VoxCPM2 extrae una incrustacion del hablante a partir de la referencia y condiciona el decodificador de flujo para generar voz que coincida con la voz de referencia. El proceso no requiere ajuste fino ni entrenamiento adicional, lo que lo hace ideal para aplicaciones como narracion de audiolibros, localizacion de contenido y asistentes de voz personalizados.

Puede VoxCPM2 ejecutarse en tiempo real?

Si. VoxCPM2 soporta inferencia de transmision con latencia inferior a 100ms en GPUs modernas. El modelo utiliza una estrategia de decodificacion paralela retardada donde el habla se genera en bloques superpuestos, permitiendo que el primer segmento de audio comience a reproducirse antes de que el resto del enunciado se haya generado completamente. Esto lo hace adecuado para asistentes de voz en vivo, traduccion en tiempo real y sistemas de dialogo interactivos.

Cual es la licencia y como puedo usarlo?

VoxCPM2 se publica bajo la licencia Apache 2.0, permitiendo su uso gratuito para fines comerciales y de investigacion. Los pesos del modelo estan alojados en Hugging Face. El equipo proporciona una interfaz web Gradio para experimentacion facil y una API de Python para uso programatico. La instalacion requiere Python 3.10+ y PyTorch 2.0+.

Preguntas Frecuentes

Que es VoxCPM? VoxCPM2 es un modelo TTS sin tokenizador de OpenBMB que genera voz natural en mas de 30 idiomas utilizando representaciones continuas de voz.

Que versiones del modelo estan disponibles? El proyecto ofrece VoxCPM2-Base (2B, multilingue), VoxCPM2-Light (600M, 10 idiomas), VoxCPM2-VoiceDesign (texto a voz) y VoxCPM2-Streaming (tiempo real).

Como funciona el diseno de voz? Los usuarios describen la voz deseada en lenguaje natural (ej., “voz femenina cálida con acento sureño”) y el modelo genera voz que coincide con esa descripcion sin audio de referencia.

Que idiomas estan soportados? Mas de 30 idiomas incluyendo ingles, chino, japones, coreano, espanol, frances, aleman, arabe, hindi y muchos mas.

Cuales son los requisitos de hardware? Minimo 8 GB VRAM para inferencia, 16 GB recomendado para calidad optima y 24 GB para transmision en tiempo real. La inferencia en CPU es posible con exportacion ONNX.

Lecturas Adicionales

TAG
CATEGORIES