edge-tts:使用 Microsoft Edge 在线服务的 Python TTS
高质量的文本转语音通常需要昂贵的云端 API 或复杂的本地模型设置。由 rany2 创建的 Edge-TTS 采取了一个巧妙的方法:它接入 Microsoft Edge 内建的在线 TTS 服务,提供对数百种自然声音的免费访问,涵盖数十种语言。 该工具是一个简单的 Python CLI,可 …
高质量的文本转语音通常需要昂贵的云端 API 或复杂的本地模型设置。由 rany2 创建的 Edge-TTS 采取了一个巧妙的方法:它接入 Microsoft Edge 内建的在线 TTS 服务,提供对数百种自然声音的免费访问,涵盖数十种语言。 该工具是一个简单的 Python CLI,可 …
文本转语音技术近年来取得了巨大进展,从机械化、单调的合成过渡到非常自然的语音生成。Higgs Audio 由 Boson AI 开发,代表了开源音频生成的最先进水平,提供一个文本转音频基础模型,能产生与人类录音无法区分的语音,涵盖多种声音、语言和情感状态。
VoxCPM2 是由 OpenBMB 开发的免分词器文本转语音 (TTS) 模型;OpenBMB 是隶属于清华大学与北京人工智能研究院 (BAAI) 的开源 AI 研究社区。VoxCPM2 拥有 20 亿个参数,直接在连续语音表征上运作,跳脱传统需要离散音频分词器的框架,避免音质下降。
GPT-SoVITS 是由 RVC-Boss 开发的开源语音克隆与文本转语音系统,在 AI 音频社区中引起轰动。该项目的突出能力是仅需 1 分钟语音数据即可训练令人信服的语音模型的少样本语音克隆,而零样本能力只需 5-10 秒的参考音频。支持中文、英文、日文与韩文,GPT-SoVITS 结 …
IndexTTS-vLLM 是 IndexTTS 文本转语音系统的加速版本,将模型的推理流水线移植到 vLLM 上运行——vLLM 是原本为大型语言模型服务开发的高性能推理引擎。结果是 TTS 推理速度提升 2.5-3.5 倍,在消费级 GPU 上实现了具有零样本语音克隆和多角色音频混合的 …
语音生成技术取得了显著进步,但大多数开源文本转语音(TTS)模型仍在一个基本权衡中挣扎:质量与语言覆盖率之间的取舍。由阿里巴巴 FunAudioLLM 团队开发的 CosyVoice 打破了这一障碍,在 9 种语言与 18 种以上中文方言中提供生产级质量的语音生成。