VoxCPM2:OpenBMB 免分詞器多語音合成模型
VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型;OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數,直接在連續語音表徵上運作,跳脫傳統需要離散音訊分詞器的框架,避免音質下降。
VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型;OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數,直接在連續語音表徵上運作,跳脫傳統需要離散音訊分詞器的框架,避免音質下降。
GPT-SoVITS 是由 RVC-Boss 開發的開源語音複製與文字轉語音系統,在 AI 音訊社群中引起轟動。該專案的突出能力是僅需 1 分鐘語音資料即可訓練令人信服的語音模型的少量樣本語音複製,而零樣本能力只需 5-10 秒的參考音訊。支援中文、英文、日文與韓文,GPT-SoVITS …
文字轉語音技術在過去三年中取得了巨大進步。零樣本語音複製——系統可以僅從幾秒鐘的音訊合成出新語音——從研究新奇事物變成了實用工具。多說話者對話生成——可以在單一輸出中混合不同語音——從實驗性發展到生產就緒。阻礙這些能力被廣泛採用的限制因素越來越常是推論速度——輸出品質與生成速度之間的差距。 …