Higgs Audio:Boson AI 的开源文本音频基础模型
文本转语音技术近年来取得了巨大进展,从机械化、单调的合成过渡到非常自然的语音生成。Higgs Audio 由 Boson AI 开发,代表了开源音频生成的最先进水平,提供一个文本转音频基础模型,能产生与人类录音无法区分的语音,涵盖多种声音、语言和情感状态。
文本转语音技术近年来取得了巨大进展,从机械化、单调的合成过渡到非常自然的语音生成。Higgs Audio 由 Boson AI 开发,代表了开源音频生成的最先进水平,提供一个文本转音频基础模型,能产生与人类录音无法区分的语音,涵盖多种声音、语言和情感状态。
语音生成技术取得了显著进步,但大多数开源文本转语音(TTS)模型仍在一个基本权衡中挣扎:质量与语言覆盖率之间的取舍。由阿里巴巴 FunAudioLLM 团队开发的 CosyVoice 打破了这一障碍,在 9 种语言与 18 种以上中文方言中提供生产级质量的语音生成。