edge-tts: TTS en Python Usando el Servicio Online de Microsoft Edge

edge-tts es una herramienta CLI de Python para generar voz a partir de texto usando el servicio TTS online de Microsoft Edge, compatible con cientos de voces e idiomas.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 05, 2026 3 min de lectura

La conversión de texto a voz de alta calidad generalmente requiere costosas APIs en la nube o complejas configuraciones de modelos locales. Edge-TTS, creado por rany2, adopta un enfoque ingenioso: aprovecha el servicio TTS en línea integrado en Microsoft Edge, proporcionando acceso gratuito a cientos de voces naturales en docenas de idiomas.

La herramienta es un simple CLI de Python que convierte texto a archivos de audio usando las mismas voces de TTS neuronal que alimentan la función de lectura en voz alta del navegador Microsoft Edge. Soporta SSML, ajuste de voz y generación de subtítulos, lo que la hace mucho más potente de lo que su simple propósito sugiere, como solución gratuita y de código abierto.

Soporte de Voces e Idiomas

Idioma	Voces Masculinas	Voces Femeninas	Calidad
Inglés (EE.UU.)	8	10	Neural de alta calidad
Inglés (Reino Unido)	5	6	Neural de alta calidad
Chino (Mandarín)	4	5	Neural de alta calidad
Japonés	3	4	Neural de alta calidad
Español	4	5	Neural de alta calidad
Francés	3	4	Neural de alta calidad
Alemán	3	4	Neural de alta calidad
Total 60+ idiomas	100+	200+	Neural

Pipeline de Generación de Audio

flowchart LR
    A[Entrada de Texto] --> B{Formato}
    B -->|Texto plano| C[Segmentación de Texto]
    B -->|SSML| D[Análisis SSML]
    C --> E[Selección de Voz]
    D --> E
    F[Parámetros de Voz] --> E
    E --> G[Solicitud API Edge TTS]
    G --> H[Flujo de Audio]
    H --> I[Salida MP3/WAV]
    H --> J[Subtítulos SRT/VTT]

El pipeline maneja tanto entrada de texto plano como SSML. SSML permite control fino sobre pronunciación, tono, velocidad y énfasis. El flujo de audio de la API de Edge se guarda como MP3 o WAV, y se pueden generar subtítulos con marcas de tiempo palabra por palabra.

Comparación de Funcionalidades

Característica	edge-tts	Google TTS	AWS Polly	ElevenLabs
Costo	Gratuito	Crédito gratuito limitado	Pago por uso	Pago por uso
Número de voces	300+	100+	50+	100+
Soporte SSML	Sí	Sí	Sí	Parcial
Exportación de subtítulos	Sí	No	No	No
Requiere clave API	No	Sí	Sí	Sí

Casos de Uso

Edge-TTS es excelente para creadores de contenido que generan narraciones, desarrolladores que prototipan funciones de voz, herramientas de accesibilidad que necesitan voces de lectores de pantalla, aplicaciones de aprendizaje de idiomas y creación de podcasts. Sin necesidad de clave API ni límites de uso, es particularmente atractivo para proyectos con tráfico impredecible o restricciones de presupuesto.

Para más información, visita el repositorio de GitHub de edge-tts y la lista de voces TTS de Microsoft Edge.

Preguntas Frecuentes

Q: ¿Es legal usar edge-tts? A: Sí, utiliza la misma API pública que usa la función del navegador Microsoft Edge. Para uso comercial, consulta los términos de Microsoft.

Q: ¿Requiere conexión a internet? A: Sí, el procesamiento TTS se realiza en los servidores de Microsoft a través de la API de Edge.

Q: ¿Puedo ajustar la velocidad y el tono de la voz? A: Sí, a través de etiquetas SSML para control fino de la prosodia.

Q: ¿Qué formatos de audio produce? A: MP3 y WAV listos para usar.

Q: ¿Qué tan largo puede ser el audio generado? A: Sin límite estricto, pero los textos muy largos deben procesarse en segmentos para mayor confiabilidad.

edge-tts: TTS en Python Usando el Servicio Online de Microsoft Edge

Soporte de Voces e Idiomas

Pipeline de Generación de Audio

Comparación de Funcionalidades

Casos de Uso

Preguntas Frecuentes

LATEST POST

Workday, Anthropic y LISC lanzan aceleradora de solopreneurs con IA

Sensor Tower adquiere AppMagic para reforzar su línea de análisis para pymes

Musk, Cook y Fink se espera que se unan a la delegación de Trump en Pekín esta s

TAG

CATEGORIES