Multimodal

AI May 03, 2026

MiniCPM-o：開源多模態 LLM，支援視覺、語音和文字

能夠同時處理視覺、語音和文字的多模態 AI 模型代表了人工智慧的前沿。OpenAI 的 GPT-4o 展示了這種方法的潛力，但其封閉性使開源社群奮起直追。由 OpenBMB（清華大學 NLP 實驗室的衍生團隊）開發的 MiniCPM-o 實現了一個非凡的里程碑：它在單圖像理解基準測試上超越 …