AI

MiniCPM-o:開源多模態 LLM,支援視覺、語音和文字

MiniCPM-o 是一系列開源多模態 LLM,能同時處理視覺、語音和文字,在單圖像理解上超越 GPT-4o。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
MiniCPM-o:開源多模態 LLM,支援視覺、語音和文字

能夠同時處理視覺、語音和文字的多模態 AI 模型代表了人工智慧的前沿。OpenAI 的 GPT-4o 展示了這種方法的潛力,但其封閉性使開源社群奮起直追。由 OpenBMB(清華大學 NLP 實驗室的衍生團隊)開發的 MiniCPM-o 實現了一個非凡的里程碑:它在單圖像理解基準測試上超越 GPT-4o,同時在語音任務上與之匹敵或超越——而且全部以開源套件形式提供。

位於 github.com/OpenBMB/MiniCPM-o 的專案代表了一系列多模態 LLM,將 MiniCPM 家族令人印象深刻的效能與體積比擴展到多模態領域。MiniCPM-o 支援全雙工語音互動——意味著它可以同時聽和說,就像自然對話一樣——同時具備圖像理解、光學字元辨識和多輪對話能力。

MiniCPM-o 特別引人注目的是其架構的效率。雖然 GPT-4o 可能需要巨大的計算資源,但 MiniCPM-o 在關鍵基準測試上以可在消費級硬體上運行的模型達到了競爭性或更優的結果。這種多模態 AI 能力的普及化使其成為近年來最重要的開源 AI 發佈之一。

什麼是 MiniCPM-o?

MiniCPM-o 是一系列開源多模態 LLM,能同時處理視覺、語音和文字。由 OpenBMB 開發,它建立在 MiniCPM 語言模型家族之上,並擴展了視覺和語音理解能力。它支援全雙工語音互動、單圖像和多圖像理解,並在多個關鍵基準測試上達到了最先進的結果。

有哪些模型版本可供選擇?

MiniCPM-o 提供多種變體,針對不同使用案例進行了最佳化。

模型參數量模態關鍵優勢
MiniCPM-o 2.68B視覺 + 文字同級最佳圖像理解
MiniCPM-o 2.6(語音)8B視覺 + 語音 + 文字全雙工語音互動
MiniCPM-V 2.68B視覺 + 文字純 VLM,資源使用更低
MiniCPM-Llama3-V 2.59B視覺 + 文字基於 LLaMA,生態系統更廣

2.6 版本是目前旗艦版,引入了早期版本所沒有的語音能力。

MiniCPM-o 提供哪些全雙工能力?

全雙工語音互動是 MiniCPM-o 的突出特色——它可以像人類對話一樣同時聽和說。

能力描述延遲
即時 ASR語音期間自動語音辨識<200 毫秒
語音活動偵測偵測使用者何時開始/停止說話<100 毫秒
同時聽 + 生成在使用者還在說話時生成回應即時
情感語音合成以適當的情感語調生成語音<300 毫秒
多輪對話在語音輪次中保持上下文不適用
打斷處理優雅地處理回應過程中被中斷的情況<150 毫秒

這種全雙工能力使 MiniCPM-o 適用於語音助手、客服中心自動化和互動式語音應用。

MiniCPM-o 與 GPT-4o 相比表現如何?

MiniCPM-o 在標準基準測試上達到了非凡的結果,經常與 GPT-4o 匹敵或超越。

基準測試MiniCPM-o 2.6GPT-4o類別
MMLU(語言)72.388.7一般知識
MMBench(單圖像)82.180.4圖像理解
MMMU(多學科)57.569.1進階推理
OCRBench(圖像文字)82.876.3OCR 品質
HallusionBench(視覺 QA)53.253.8視覺幻覺
MathVista(視覺數學)64.563.8數學推理

在單圖像理解(MMBench)和 OCR 任務(OCRBench)上,MiniCPM-o 2.6 實際上超越了 GPT-4o。在一般知識(MMLU)和多學科推理(MMMU)上,GPT-4o 保持領先。

執行 MiniCPM-o 需要什麼硬體?

與許多競爭的多模態模型不同,MiniCPM-o 設計為可在消費級硬體上執行。

# 使用 Transformers 安裝
pip install transformers torch

# 載入 MiniCPM-o 2.6
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained(
    "openbmb/MiniCPM-o-2_6",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("openbmb/MiniCPM-o-2_6", trust_remote_code=True)
硬體模型大小推論速度備註
RTX 4090(24GB VRAM)8B25-30 代幣/秒單 GPU 全模型
RTX 3090(24GB VRAM)8B20-25 代幣/秒單 GPU 全模型
RTX 4060(8GB VRAM)8B(4 位元)15-20 代幣/秒需要量化
Apple M2/M3(16GB+)8B10-15 代幣/秒透過 MLX 或 llama.cpp
僅 CPU8B(4 位元)3-5 代幣/秒非常慢,不建議

常見問題

什麼是 MiniCPM-o?

MiniCPM-o 是 OpenBMB 推出的一系列開源多模態 LLM,能同時處理視覺、語音和文字。它支援全雙工語音互動,並在單圖像理解基準測試上超越 GPT-4o。

有哪些模型版本可供選擇?

旗艦版 MiniCPM-o 2.6(8B 參數)提供視覺+文字和視覺+語音+文字兩種變體。早期版本包括 MiniCPM-V 2.6 和 MiniCPM-Llama3-V 2.5。

MiniCPM-o 提供哪些全雙工能力?

全雙工語音互動包括即時 ASR、語音活動偵測、同時聽和生成、情感語音合成、多輪對話和打斷處理——全部低於 300 毫秒延遲。

MiniCPM-o 在基準測試上與 GPT-4o 相比如何?

MiniCPM-o 2.6 在單圖像理解(MMBench:82.1 對比 80.4)和 OCR(OCRBench:82.8 對比 76.3)上超越 GPT-4o。GPT-4o 在一般知識(MMLU:88.7 對比 72.3)和多學科推理(MMMU:69.1 對比 57.5)上保持領先。

執行 MiniCPM-o 需要什麼硬體?

8B 模型可在單張 RTX 4090/3090(24GB VRAM)上執行。使用 4 位元量化後,可在 8GB GPU 上執行。Apple Silicon 使用者可透過 MLX 獲得合理的效能。

延伸閱讀

TAG