VoxCPM2:OpenBMB 免分詞器多語音合成模型
VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型;OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數,直接在連續語音表徵上運作,跳脫傳統需要離散音訊分詞器的框架,避免音質下降。
VoxCPM2 是由 OpenBMB 開發的免分詞器文字轉語音 (TTS) 模型;OpenBMB 是隸屬於清華大學與北京人工智慧研究院 (BAAI) 的開源 AI 研究社群。VoxCPM2 擁有 20 億個參數,直接在連續語音表徵上運作,跳脫傳統需要離散音訊分詞器的框架,避免音質下降。
能夠同時處理視覺、語音和文字的多模態 AI 模型代表了人工智慧的前沿。OpenAI 的 GPT-4o 展示了這種方法的潛力,但其封閉性使開源社群奮起直追。由 OpenBMB(清華大學 NLP 實驗室的衍生團隊)開發的 MiniCPM-o 實現了一個非凡的里程碑:它在單圖像理解基準測試上超越 …