Tags

OpenBMB

VoxCPM2:OpenBMB 免分词器多语言语音合成模型
AI

VoxCPM2:OpenBMB 免分词器多语言语音合成模型

VoxCPM2 是由 OpenBMB 开发的免分词器文本转语音 (TTS) 模型;OpenBMB 是隶属于清华大学与北京人工智能研究院 (BAAI) 的开源 AI 研究社区。VoxCPM2 拥有 20 亿个参数,直接在连续语音表征上运作,跳脱传统需要离散音频分词器的框架,避免音质下降。

MiniCPM-o:开源多模态 LLM,支持视觉、语音和文本
AI

MiniCPM-o:开源多模态 LLM,支持视觉、语音和文本

能够同时处理视觉、语音和文本的多模态 AI 模型代表了人工智能的前沿。OpenAI 的 GPT-4o 展示了这种方法的潜力,但其封闭性使开源社区奋起直追。由 OpenBMB(清华大学 NLP 实验室的衍生团队)开发的 MiniCPM-o 实现了一个非凡的里程碑:它在单图像理解基准测试上超越 …

TAG
CATEGORIES