AI

IndexTTS-vLLM: Texto a Voz Acelerado de Código Abierto con Inferencia vLLM

IndexTTS-vLLM es una versión acelerada de IndexTTS que usa vLLM para inferencia 3x más rápida, soportando mezcla de audio multi-personaje y TTS en tiempo real.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
IndexTTS-vLLM: Texto a Voz Acelerado de Código Abierto con Inferencia vLLM

IndexTTS-vLLM es una versión acelerada del sistema de texto a voz IndexTTS que porta el pipeline de inferencia del modelo a vLLM. El resultado es una aceleración de 2.5-3.5x en inferencia TTS, habilitando síntesis de voz en tiempo real con clonación de voz zero-shot y mezcla de audio multi-personaje en GPUs de consumo.

Repositorio: github.com/Ksuriuri/index-tts-vllm


Comparación de Rendimiento

CapacidadIndexTTS OriginalIndexTTS-vLLM
Motor de inferenciaImplementación personalizadavLLM (PagedAttention)
Velocidad relativa1x (línea base)2.5-3.5x
Factor tiempo real (RTX 4090)~0.4x~1.2-1.5x
Inferencia por lotesLimitadaProcesamiento continuo eficiente
Uso de memoriaMayor por solicitudOptimizado via PagedAttention

Aceleración por Hardware

HardwareOriginal (RTF)vLLM (RTF)Aceleración
RTX 4090 (24GB)2.5x (0.4x real)0.67x (1.5x real)3.7x
RTX 3090 (24GB)3.0x (0.33x real)0.85x (1.18x real)3.5x
RTX 4070 (12GB)3.5x (0.29x real)1.1x (0.91x real)3.2x
A100 (80GB)2.0x (0.5x real)0.5x (2.0x real)4.0x

Calidad de Voz

DimensiónCalificaciónNotas
NaturalidadMuy AltaCompetitiva con TTS comercial
Fidelidad de clonaciónAltaEfectiva desde 5-10s de referencia
Prosodia y entonaciónBuenaArtefactos ocasionales
Soporte multi-idiomaChino (mejor), Inglés, JaponésCobertura en expansión

FAQ

Qué es IndexTTS-vLLM? Versión acelerada de IndexTTS usando vLLM para inferencia ~3x más rápida, soportando clonación de voz zero-shot y mezcla multi-personaje.

Cómo mejora vLLM a IndexTTS? Usa PagedAttention y procesamiento por lotes continuo para lograr generación de tokens 3x más rápida.

Qué tan rápido es? 2.5-3.5x de aceleración. En RTX 4090: de 0.4x a 1.5x velocidad real.

Mezcla multi-personaje? Genera audio con múltiples voces distintas en un solo archivo.

Hardware? GPU CUDA con 8GB+ VRAM. RTX 3060 (12GB) o superior recomendado.

Lecturas Adicionales

TAG
CATEGORIES