La conversión de texto a voz de alta calidad generalmente requiere costosas APIs en la nube o complejas configuraciones de modelos locales. Edge-TTS, creado por rany2, adopta un enfoque ingenioso: aprovecha el servicio TTS en línea integrado en Microsoft Edge, proporcionando acceso gratuito a cientos de voces naturales en docenas de idiomas.
La herramienta es un simple CLI de Python que convierte texto a archivos de audio usando las mismas voces de TTS neuronal que alimentan la función de lectura en voz alta del navegador Microsoft Edge. Soporta SSML, ajuste de voz y generación de subtítulos, lo que la hace mucho más potente de lo que su simple propósito sugiere, como solución gratuita y de código abierto.
Soporte de Voces e Idiomas
| Idioma | Voces Masculinas | Voces Femeninas | Calidad |
|---|---|---|---|
| Inglés (EE.UU.) | 8 | 10 | Neural de alta calidad |
| Inglés (Reino Unido) | 5 | 6 | Neural de alta calidad |
| Chino (Mandarín) | 4 | 5 | Neural de alta calidad |
| Japonés | 3 | 4 | Neural de alta calidad |
| Español | 4 | 5 | Neural de alta calidad |
| Francés | 3 | 4 | Neural de alta calidad |
| Alemán | 3 | 4 | Neural de alta calidad |
| Total 60+ idiomas | 100+ | 200+ | Neural |
Pipeline de Generación de Audio
flowchart LR
A[Entrada de Texto] --> B{Formato}
B -->|Texto plano| C[Segmentación de Texto]
B -->|SSML| D[Análisis SSML]
C --> E[Selección de Voz]
D --> E
F[Parámetros de Voz] --> E
E --> G[Solicitud API Edge TTS]
G --> H[Flujo de Audio]
H --> I[Salida MP3/WAV]
H --> J[Subtítulos SRT/VTT]El pipeline maneja tanto entrada de texto plano como SSML. SSML permite control fino sobre pronunciación, tono, velocidad y énfasis. El flujo de audio de la API de Edge se guarda como MP3 o WAV, y se pueden generar subtítulos con marcas de tiempo palabra por palabra.
Comparación de Funcionalidades
| Característica | edge-tts | Google TTS | AWS Polly | ElevenLabs |
|---|---|---|---|---|
| Costo | Gratuito | Crédito gratuito limitado | Pago por uso | Pago por uso |
| Número de voces | 300+ | 100+ | 50+ | 100+ |
| Soporte SSML | Sí | Sí | Sí | Parcial |
| Exportación de subtítulos | Sí | No | No | No |
| Requiere clave API | No | Sí | Sí | Sí |
Casos de Uso
Edge-TTS es excelente para creadores de contenido que generan narraciones, desarrolladores que prototipan funciones de voz, herramientas de accesibilidad que necesitan voces de lectores de pantalla, aplicaciones de aprendizaje de idiomas y creación de podcasts. Sin necesidad de clave API ni límites de uso, es particularmente atractivo para proyectos con tráfico impredecible o restricciones de presupuesto.
Para más información, visita el repositorio de GitHub de edge-tts y la lista de voces TTS de Microsoft Edge.
Preguntas Frecuentes
Q: ¿Es legal usar edge-tts? A: Sí, utiliza la misma API pública que usa la función del navegador Microsoft Edge. Para uso comercial, consulta los términos de Microsoft.
Q: ¿Requiere conexión a internet? A: Sí, el procesamiento TTS se realiza en los servidores de Microsoft a través de la API de Edge.
Q: ¿Puedo ajustar la velocidad y el tono de la voz? A: Sí, a través de etiquetas SSML para control fino de la prosodia.
Q: ¿Qué formatos de audio produce? A: MP3 y WAV listos para usar.
Q: ¿Qué tan largo puede ser el audio generado? A: Sin límite estricto, pero los textos muy largos deben procesarse en segmentos para mayor confiabilidad.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!