高品質的文字轉語音通常需要昂貴的雲端 API 或複雜的本地模型設定。由 rany2 建立的 Edge-TTS 採取了一個巧妙的方法:它接入 Microsoft Edge 內建的線上 TTS 服務,提供對數百種自然聲音的免費存取,涵蓋數十種語言。
該工具是一個簡單的 Python CLI,可將文字轉換為音訊檔案,使用與 Microsoft Edge 瀏覽器朗讀功能相同的神經 TTS 聲音。支援 SSML、語音調整和字幕生成,使其作為免費的開源 TTS 解決方案遠遠超出其預期功能。
語音和語言支援
| 語言 | 男聲 | 女聲 | 品質 |
|---|---|---|---|
| 英文(美國) | 8 | 10 | 神經網路高品質 |
| 英文(英國) | 5 | 6 | 神經網路高品質 |
| 中文(普通話) | 4 | 5 | 神經網路高品質 |
| 日文 | 3 | 4 | 神經網路高品質 |
| 西班牙文 | 4 | 5 | 神經網路高品質 |
| 法文 | 3 | 4 | 神經網路高品質 |
| 德文 | 3 | 4 | 神經網路高品質 |
| 總計 60+ 種語言 | 100+ | 200+ | 神經網路 |
音訊生成管線
flowchart LR
A[文字輸入] --> B{格式}
B -->|純文字| C[文字分段]
B -->|SSML| D[SSML 解析]
C --> E[語音選擇]
D --> E
F[語音參數] --> E
E --> G[Edge TTS API 請求]
G --> H[音訊串流]
H --> I[MP3/WAV 輸出]
H --> J[SRT/VTT 字幕]管線同時處理純文字和 SSML 輸入。SSML 允許對發音、音高、語速和強調進行精細控制。來自 Edge API 的音訊串流儲存為 MP3 或 WAV,並且可以生成具有逐字時間的字幕。
功能比較
| 功能 | edge-tts | Google TTS | AWS Polly | ElevenLabs |
|---|---|---|---|---|
| 成本 | 免費 | 免費額度有限 | 按用量付費 | 按用量付費 |
| 語音數量 | 300+ | 100+ | 50+ | 100+ |
| SSML 支援 | 是 | 是 | 是 | 部分 |
| 字幕匯出 | 是 | 否 | 否 | 否 |
| 需要 API 金鑰 | 否 | 是 | 是 | 是 |
實際應用
Edge-TTS 非常適合生成配音的內容創作者、原型製作語音功能的開發者、需要螢幕閱讀器聲音的無障礙工具、語言學習應用程式和 Podcast 創作。無需 API 金鑰或使用限制使其對於具有不可預測流量或預算限制的專案特別有吸引力。
如需更多資訊,請造訪 edge-tts GitHub 儲存庫 和 Microsoft Edge TTS 語音清單。
常見問題
Q:使用 edge-tts 合法嗎? A:是的,它使用與 Microsoft Edge 瀏覽器功能相同的公開 API。商業使用請查閱 Microsoft 的使用條款。
Q:它需要網路連線嗎? A:是的,TTS 處理透過 Edge API 在 Microsoft 的伺服器上進行。
Q:我可以調整語音速度和音高嗎? A:可以,透過 SSML 標籤對韻律進行精細控制。
Q:它輸出哪些音訊格式? A:開箱即用支援 MP3 和 WAV。
Q:生成的音訊可以多長? A:沒有硬性限制,但為了可靠性,很長的文字應該分段處理。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!