能夠同時處理視覺、語音和文字的多模態 AI 模型代表了人工智慧的前沿。OpenAI 的 GPT-4o 展示了這種方法的潛力,但其封閉性使開源社群奮起直追。由 OpenBMB(清華大學 NLP 實驗室的衍生團隊)開發的 MiniCPM-o 實現了一個非凡的里程碑:它在單圖像理解基準測試上超越 GPT-4o,同時在語音任務上與之匹敵或超越——而且全部以開源套件形式提供。
位於 github.com/OpenBMB/MiniCPM-o 的專案代表了一系列多模態 LLM,將 MiniCPM 家族令人印象深刻的效能與體積比擴展到多模態領域。MiniCPM-o 支援全雙工語音互動——意味著它可以同時聽和說,就像自然對話一樣——同時具備圖像理解、光學字元辨識和多輪對話能力。
MiniCPM-o 特別引人注目的是其架構的效率。雖然 GPT-4o 可能需要巨大的計算資源,但 MiniCPM-o 在關鍵基準測試上以可在消費級硬體上運行的模型達到了競爭性或更優的結果。這種多模態 AI 能力的普及化使其成為近年來最重要的開源 AI 發佈之一。
什麼是 MiniCPM-o?
MiniCPM-o 是一系列開源多模態 LLM,能同時處理視覺、語音和文字。由 OpenBMB 開發,它建立在 MiniCPM 語言模型家族之上,並擴展了視覺和語音理解能力。它支援全雙工語音互動、單圖像和多圖像理解,並在多個關鍵基準測試上達到了最先進的結果。
有哪些模型版本可供選擇?
MiniCPM-o 提供多種變體,針對不同使用案例進行了最佳化。
| 模型 | 參數量 | 模態 | 關鍵優勢 |
|---|---|---|---|
| MiniCPM-o 2.6 | 8B | 視覺 + 文字 | 同級最佳圖像理解 |
| MiniCPM-o 2.6(語音) | 8B | 視覺 + 語音 + 文字 | 全雙工語音互動 |
| MiniCPM-V 2.6 | 8B | 視覺 + 文字 | 純 VLM,資源使用更低 |
| MiniCPM-Llama3-V 2.5 | 9B | 視覺 + 文字 | 基於 LLaMA,生態系統更廣 |
2.6 版本是目前旗艦版,引入了早期版本所沒有的語音能力。
MiniCPM-o 提供哪些全雙工能力?
全雙工語音互動是 MiniCPM-o 的突出特色——它可以像人類對話一樣同時聽和說。
| 能力 | 描述 | 延遲 |
|---|---|---|
| 即時 ASR | 語音期間自動語音辨識 | <200 毫秒 |
| 語音活動偵測 | 偵測使用者何時開始/停止說話 | <100 毫秒 |
| 同時聽 + 生成 | 在使用者還在說話時生成回應 | 即時 |
| 情感語音合成 | 以適當的情感語調生成語音 | <300 毫秒 |
| 多輪對話 | 在語音輪次中保持上下文 | 不適用 |
| 打斷處理 | 優雅地處理回應過程中被中斷的情況 | <150 毫秒 |
這種全雙工能力使 MiniCPM-o 適用於語音助手、客服中心自動化和互動式語音應用。
MiniCPM-o 與 GPT-4o 相比表現如何?
MiniCPM-o 在標準基準測試上達到了非凡的結果,經常與 GPT-4o 匹敵或超越。
| 基準測試 | MiniCPM-o 2.6 | GPT-4o | 類別 |
|---|---|---|---|
| MMLU(語言) | 72.3 | 88.7 | 一般知識 |
| MMBench(單圖像) | 82.1 | 80.4 | 圖像理解 |
| MMMU(多學科) | 57.5 | 69.1 | 進階推理 |
| OCRBench(圖像文字) | 82.8 | 76.3 | OCR 品質 |
| HallusionBench(視覺 QA) | 53.2 | 53.8 | 視覺幻覺 |
| MathVista(視覺數學) | 64.5 | 63.8 | 數學推理 |
在單圖像理解(MMBench)和 OCR 任務(OCRBench)上,MiniCPM-o 2.6 實際上超越了 GPT-4o。在一般知識(MMLU)和多學科推理(MMMU)上,GPT-4o 保持領先。
執行 MiniCPM-o 需要什麼硬體?
與許多競爭的多模態模型不同,MiniCPM-o 設計為可在消費級硬體上執行。
# 使用 Transformers 安裝
pip install transformers torch
# 載入 MiniCPM-o 2.6
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained(
"openbmb/MiniCPM-o-2_6",
trust_remote_code=True,
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("openbmb/MiniCPM-o-2_6", trust_remote_code=True)
| 硬體 | 模型大小 | 推論速度 | 備註 |
|---|---|---|---|
| RTX 4090(24GB VRAM) | 8B | 25-30 代幣/秒 | 單 GPU 全模型 |
| RTX 3090(24GB VRAM) | 8B | 20-25 代幣/秒 | 單 GPU 全模型 |
| RTX 4060(8GB VRAM) | 8B(4 位元) | 15-20 代幣/秒 | 需要量化 |
| Apple M2/M3(16GB+) | 8B | 10-15 代幣/秒 | 透過 MLX 或 llama.cpp |
| 僅 CPU | 8B(4 位元) | 3-5 代幣/秒 | 非常慢,不建議 |
常見問題
什麼是 MiniCPM-o?
MiniCPM-o 是 OpenBMB 推出的一系列開源多模態 LLM,能同時處理視覺、語音和文字。它支援全雙工語音互動,並在單圖像理解基準測試上超越 GPT-4o。
有哪些模型版本可供選擇?
旗艦版 MiniCPM-o 2.6(8B 參數)提供視覺+文字和視覺+語音+文字兩種變體。早期版本包括 MiniCPM-V 2.6 和 MiniCPM-Llama3-V 2.5。
MiniCPM-o 提供哪些全雙工能力?
全雙工語音互動包括即時 ASR、語音活動偵測、同時聽和生成、情感語音合成、多輪對話和打斷處理——全部低於 300 毫秒延遲。
MiniCPM-o 在基準測試上與 GPT-4o 相比如何?
MiniCPM-o 2.6 在單圖像理解(MMBench:82.1 對比 80.4)和 OCR(OCRBench:82.8 對比 76.3)上超越 GPT-4o。GPT-4o 在一般知識(MMLU:88.7 對比 72.3)和多學科推理(MMMU:69.1 對比 57.5)上保持領先。
執行 MiniCPM-o 需要什麼硬體?
8B 模型可在單張 RTX 4090/3090(24GB VRAM)上執行。使用 4 位元量化後,可在 8GB GPU 上執行。Apple Silicon 使用者可透過 MLX 獲得合理的效能。
延伸閱讀
flowchart TB
A[輸入] --> B{模態}
B --> C[圖像]
B --> D[語音]
B --> E[文字]
C --> F[視覺編碼器(SigLIP)]
D --> G[語音編碼器(Whisper)]
E --> H[文字標記器]
F --> I[投影層]
G --> I
H --> I
I --> J[MiniCPM LLM 主幹]
J --> K[文字解碼器]
J --> L[語音解碼器]
K --> M[文字輸出]
L --> N[語音輸出]graph TD
subgraph 基準測試比較
A["GPT-4o 最佳:MMLU 88.7"]
B["MiniCPM-o 最佳:MMBench 82.1"]
C["平手:HallusionBench 約 53.5"]
end
subgraph 硬體需求
D["RTX 4090:全模型,30 tok/s"]
E["RTX 4060:4 位元模型,20 tok/s"]
F["Apple M3:MLX,15 tok/s"]
end
subgraph 使用案例
G["語音助手"]
H["文件 OCR"]
I["圖像標題生成"]
J["多模態聊天"]
end
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!