IndexTTS-vLLM es una versión acelerada del sistema de texto a voz IndexTTS que porta el pipeline de inferencia del modelo a vLLM. El resultado es una aceleración de 2.5-3.5x en inferencia TTS, habilitando síntesis de voz en tiempo real con clonación de voz zero-shot y mezcla de audio multi-personaje en GPUs de consumo.
Repositorio: github.com/Ksuriuri/index-tts-vllm
Comparación de Rendimiento
| Capacidad | IndexTTS Original | IndexTTS-vLLM |
|---|---|---|
| Motor de inferencia | Implementación personalizada | vLLM (PagedAttention) |
| Velocidad relativa | 1x (línea base) | 2.5-3.5x |
| Factor tiempo real (RTX 4090) | ~0.4x | ~1.2-1.5x |
| Inferencia por lotes | Limitada | Procesamiento continuo eficiente |
| Uso de memoria | Mayor por solicitud | Optimizado via PagedAttention |
flowchart LR
A[Texto de Entrada] --> B[Codificador de Texto\nFonemizador y Tokenizador]
B --> C[Motor de Inferencia vLLM\nGeneración de Tokens de Audio]
C --> D[Decodificador de Audio\nTokens a Forma de Onda]
D --> E[Audio de Salida\nWAV / MP3]
F[Referencia de Voz\nMuestra de Audio] --> G[Codificador de Voz]
G --> CAceleración por Hardware
| Hardware | Original (RTF) | vLLM (RTF) | Aceleración |
|---|---|---|---|
| RTX 4090 (24GB) | 2.5x (0.4x real) | 0.67x (1.5x real) | 3.7x |
| RTX 3090 (24GB) | 3.0x (0.33x real) | 0.85x (1.18x real) | 3.5x |
| RTX 4070 (12GB) | 3.5x (0.29x real) | 1.1x (0.91x real) | 3.2x |
| A100 (80GB) | 2.0x (0.5x real) | 0.5x (2.0x real) | 4.0x |
Calidad de Voz
| Dimensión | Calificación | Notas |
|---|---|---|
| Naturalidad | Muy Alta | Competitiva con TTS comercial |
| Fidelidad de clonación | Alta | Efectiva desde 5-10s de referencia |
| Prosodia y entonación | Buena | Artefactos ocasionales |
| Soporte multi-idioma | Chino (mejor), Inglés, Japonés | Cobertura en expansión |
FAQ
Qué es IndexTTS-vLLM? Versión acelerada de IndexTTS usando vLLM para inferencia ~3x más rápida, soportando clonación de voz zero-shot y mezcla multi-personaje.
Cómo mejora vLLM a IndexTTS? Usa PagedAttention y procesamiento por lotes continuo para lograr generación de tokens 3x más rápida.
Qué tan rápido es? 2.5-3.5x de aceleración. En RTX 4090: de 0.4x a 1.5x velocidad real.
Mezcla multi-personaje? Genera audio con múltiples voces distintas en un solo archivo.
Hardware? GPU CUDA con 8GB+ VRAM. RTX 3060 (12GB) o superior recomendado.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!