Tags

TTS

edge-tts:使用 Microsoft Edge 線上服務的 Python TTS
AI

edge-tts:使用 Microsoft Edge 線上服務的 Python TTS

高品質的文字轉語音通常需要昂貴的雲端 API 或複雜的本地模型設定。由 rany2 建立的 Edge-TTS 採取了一個巧妙的方法:它接入 Microsoft Edge 內建的線上 TTS 服務,提供對數百種自然聲音的免費存取,涵蓋數十種語言。 該工具是一個簡單的 Python CLI,可 …

Higgs Audio:Boson AI 的開源文字音訊基礎模型
AI

Higgs Audio:Boson AI 的開源文字音訊基礎模型

文字轉語音技術在近年來取得了巨大進展,從機械化、單調的合成過渡到非常自然的語音生成。Higgs Audio 由 Boson AI 開發,代表了開源音訊生成的最先進水準,提供一個文字轉音訊基礎模型,能產生與人類錄音無法區分的語音,涵蓋多種聲音、語言和情感狀態。

VoxCPM2:OpenBMB 免分詞器多語音合成模型
AI

VoxCPM2:OpenBMB 免分詞器多語音合成模型

VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型;OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數,直接在連續語音表徵上運作,跳脫傳統需要離散音訊分詞器的框架,避免音質下降。

GPT-SoVITS:僅需 1 分鐘語音資料的少量樣本語音複製
AI

GPT-SoVITS:僅需 1 分鐘語音資料的少量樣本語音複製

GPT-SoVITS 是由 RVC-Boss 開發的開源語音複製與文字轉語音系統,在 AI 音訊社群中引起轟動。該專案的突出能力是僅需 1 分鐘語音資料即可訓練令人信服的語音模型的少量樣本語音複製,而零樣本能力只需 5-10 秒的參考音訊。支援中文、英文、日文與韓文,GPT-SoVITS …

IndexTTS-vLLM:使用 vLLM 推論加速的開源文字轉語音
AI

IndexTTS-vLLM:使用 vLLM 推論加速的開源文字轉語音

文字轉語音技術在過去三年中取得了巨大進步。零樣本語音複製——系統可以僅從幾秒鐘的音訊合成出新語音——從研究新奇事物變成了實用工具。多說話者對話生成——可以在單一輸出中混合不同語音——從實驗性發展到生產就緒。阻礙這些能力被廣泛採用的限制因素越來越常是推論速度——輸出品質與生成速度之間的差距。 …

TAG