Higgs Audio:Boson AI 的開源文字音訊基礎模型
文字轉語音技術在近年來取得了巨大進展,從機械化、單調的合成過渡到非常自然的語音生成。Higgs Audio 由 Boson AI 開發,代表了開源音訊生成的最先進水準,提供一個文字轉音訊基礎模型,能產生與人類錄音無法區分的語音,涵蓋多種聲音、語言和情感狀態。
文字轉語音技術在近年來取得了巨大進展,從機械化、單調的合成過渡到非常自然的語音生成。Higgs Audio 由 Boson AI 開發,代表了開源音訊生成的最先進水準,提供一個文字轉音訊基礎模型,能產生與人類錄音無法區分的語音,涵蓋多種聲音、語言和情感狀態。
語音生成技術取得了顯著進步,但大多數開源文字轉語音(TTS)模型仍在一個基本權衡中掙扎:品質與語言覆蓋率之間的取捨。由阿里巴巴 FunAudioLLM 團隊開發的 CosyVoice 打破了這個障礙,在 9 種語言與 18 種以上中文方言中提供生產級品質的語音生成。