Categories

Multimodal

MiniCPM-o:開源多模態 LLM,支援視覺、語音和文字
AI

MiniCPM-o:開源多模態 LLM,支援視覺、語音和文字

能夠同時處理視覺、語音和文字的多模態 AI 模型代表了人工智慧的前沿。OpenAI 的 GPT-4o 展示了這種方法的潛力,但其封閉性使開源社群奮起直追。由 OpenBMB(清華大學 NLP 實驗室的衍生團隊)開發的 MiniCPM-o 實現了一個非凡的里程碑:它在單圖像理解基準測試上超越 …

TAG