高质量的文本转语音通常需要昂贵的云端 API 或复杂的本地模型设置。由 rany2 创建的 Edge-TTS 采取了一个巧妙的方法:它接入 Microsoft Edge 内建的在线 TTS 服务,提供对数百种自然声音的免费访问,涵盖数十种语言。
该工具是一个简单的 Python CLI,可将文字转换为音频文件,使用与 Microsoft Edge 浏览器朗读功能相同的神经 TTS 声音。支持 SSML、语音调整和字幕生成,使其作为免费的开源 TTS 解决方案远远超出其预期功能。
语音和语言支持
| 语言 | 男声 | 女声 | 质量 |
|---|---|---|---|
| 英文(美国) | 8 | 10 | 神经网络高质量 |
| 英文(英国) | 5 | 6 | 神经网络高质量 |
| 中文(普通话) | 4 | 5 | 神经网络高质量 |
| 日文 | 3 | 4 | 神经网络高质量 |
| 西班牙文 | 4 | 5 | 神经网络高质量 |
| 法文 | 3 | 4 | 神经网络高质量 |
| 德文 | 3 | 4 | 神经网络高质量 |
| 总计 60+ 种语言 | 100+ | 200+ | 神经网络 |
音频生成管线
flowchart LR
A[文字输入] --> B{格式}
B -->|纯文本| C[文字分段]
B -->|SSML| D[SSML 解析]
C --> E[语音选择]
D --> E
F[语音参数] --> E
E --> G[Edge TTS API 请求]
G --> H[音频流]
H --> I[MP3/WAV 输出]
H --> J[SRT/VTT 字幕]管线同时处理纯文本和 SSML 输入。SSML 允许对发音、音高、语速和强调进行精细控制。来自 Edge API 的音频流存储为 MP3 或 WAV,并且可以生成具有逐字时间戳的字幕。
功能比较
| 功能 | edge-tts | Google TTS | AWS Polly | ElevenLabs |
|---|---|---|---|---|
| 成本 | 免费 | 免费额度有限 | 按用量付费 | 按用量付费 |
| 语音数量 | 300+ | 100+ | 50+ | 100+ |
| SSML 支持 | 是 | 是 | 是 | 部分 |
| 字幕导出 | 是 | 否 | 否 | 否 |
| 需要 API 密钥 | 否 | 是 | 是 | 是 |
实际应用
Edge-TTS 非常适合生成配音的内容创作者、原型制作语音功能的开发者、需要屏幕阅读器声音的无障碍工具、语言学习应用和 Podcast 创作。无需 API 密钥或使用限制使其对于具有不可预测流量或预算限制的项目特别有吸引力。
如需更多信息,请访问 edge-tts GitHub 仓库 和 Microsoft Edge TTS 语音列表。
常见问题
Q:使用 edge-tts 合法吗? A:是的,它使用与 Microsoft Edge 浏览器功能相同的公开 API。商业使用请查阅 Microsoft 的使用条款。
Q:它需要网络连接吗? A:是的,TTS 处理通过 Edge API 在 Microsoft 的服务器上进行。
Q:我可以调整语音速度和音高吗? A:可以,通过 SSML 标签对韵律进行精细控制。
Q:它输出哪些音频格式? A:开箱即用支持 MP3 和 WAV。
Q:生成的音频可以多长? A:没有硬性限制,但为了可靠性,很长的文字应该分段处理。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!