TTS

AI May 05, 2026

edge-tts：使用 Microsoft Edge 線上服務的 Python TTS

高品質的文字轉語音通常需要昂貴的雲端 API 或複雜的本地模型設定。由 rany2 建立的 Edge-TTS 採取了一個巧妙的方法：它接入 Microsoft Edge 內建的線上 TTS 服務，提供對數百種自然聲音的免費存取，涵蓋數十種語言。該工具是一個簡單的 Python CLI，可 …

AI May 04, 2026

文字轉語音技術在近年來取得了巨大進展，從機械化、單調的合成過渡到非常自然的語音生成。Higgs Audio 由 Boson AI 開發，代表了開源音訊生成的最先進水準，提供一個文字轉音訊基礎模型，能產生與人類錄音無法區分的語音，涵蓋多種聲音、語言和情感狀態。

AI May 03, 2026

VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型；OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數，直接在連續語音表徵上運作，跳脫傳統需要離散音訊分詞器的框架，避免音質下降。

AI May 03, 2026

GPT-SoVITS 是由 RVC-Boss 開發的開源語音複製與文字轉語音系統，在 AI 音訊社群中引起轟動。該專案的突出能力是僅需 1 分鐘語音資料即可訓練令人信服的語音模型的少量樣本語音複製，而零樣本能力只需 5-10 秒的參考音訊。支援中文、英文、日文與韓文，GPT-SoVITS …

AI May 03, 2026

文字轉語音技術在過去三年中取得了巨大進步。零樣本語音複製——系統可以僅從幾秒鐘的音訊合成出新語音——從研究新奇事物變成了實用工具。多說話者對話生成——可以在單一輸出中混合不同語音——從實驗性發展到生產就緒。阻礙這些能力被廣泛採用的限制因素越來越常是推論速度——輸出品質與生成速度之間的差距。 …

AI May 02, 2026

語音生成技術取得了顯著進步，但大多數開源文字轉語音（TTS）模型仍在一個基本權衡中掙扎：品質與語言覆蓋率之間的取捨。由阿里巴巴 FunAudioLLM 團隊開發的 CosyVoice 打破了這個障礙，在 9 種語言與 18 種以上中文方言中提供生產級品質的語音生成。