能够同时处理视觉、语音和文本的多模态 AI 模型代表了人工智能的前沿。OpenAI 的 GPT-4o 展示了这种方法的潜力,但其封闭性使开源社区奋起直追。由 OpenBMB(清华大学 NLP 实验室的衍生团队)开发的 MiniCPM-o 实现了一个非凡的里程碑:它在单图像理解基准测试上超越 GPT-4o,同时在语音任务上与 GPT-4o 匹敌或超越——而且全部以开源包形式提供。
位于 github.com/OpenBMB/MiniCPM-o 的项目代表了一系列多模态 LLM,将 MiniCPM 家族令人印象深刻的性能与体积比扩展到多模态领域。MiniCPM-o 支持全双工语音交互——意味着它可以同时听和说,就像自然对话一样——同时具备图像理解、光学字符识别和多轮对话能力。
MiniCPM-o 特别引人注目的是其架构的效率。虽然 GPT-4o 可能需要巨大的计算资源,但 MiniCPM-o 在关键基准测试上以可在消费级硬件上运行的模型达到了竞争性或更优的结果。这种多模态 AI 能力的普及化使其成为近年来最重要的开源 AI 发布之一。
什么是 MiniCPM-o?
MiniCPM-o 是一系列开源多模态 LLM,能同时处理视觉、语音和文本。由 OpenBMB 开发,它建立在 MiniCPM 语言模型家族之上,并扩展了视觉和语音理解能力。它支持全双工语音交互、单图像和多图像理解,并在多个关键基准测试上达到了最先进的结果。
有哪些模型版本可供选择?
MiniCPM-o 提供多种变体,针对不同使用场景进行了优化。
| 模型 | 参数量 | 模态 | 关键优势 |
|---|---|---|---|
| MiniCPM-o 2.6 | 8B | 视觉 + 文本 | 同级最佳图像理解 |
| MiniCPM-o 2.6(语音) | 8B | 视觉 + 语音 + 文本 | 全双工语音交互 |
| MiniCPM-V 2.6 | 8B | 视觉 + 文本 | 纯 VLM,资源使用更低 |
| MiniCPM-Llama3-V 2.5 | 9B | 视觉 + 文本 | 基于 LLaMA,生态系统更广 |
2.6 版本是目前旗舰版,引入了早期版本所没有的语音能力。
MiniCPM-o 提供哪些全双工能力?
全双工语音交互是 MiniCPM-o 的突出特色——它可以像人类对话一样同时听和说。
| 能力 | 描述 | 延迟 |
|---|---|---|
| 实时 ASR | 语音期间自动语音识别 | <200 毫秒 |
| 语音活动检测 | 检测用户何时开始/停止说话 | <100 毫秒 |
| 同时听 + 生成 | 在用户还在说话时生成回应 | 实时 |
| 情感语音合成 | 以适当的情感语调生成语音 | <300 毫秒 |
| 多轮对话 | 在语音轮次中保持上下文 | 不适用 |
| 打断处理 | 优雅地处理回应过程中被打断的情况 | <150 毫秒 |
这种全双工能力使 MiniCPM-o 适用于语音助手、客服中心自动化和交互式语音应用。
MiniCPM-o 与 GPT-4o 相比表现如何?
MiniCPM-o 在标准基准测试上达到了非凡的结果,经常与 GPT-4o 匹敌或超越。
| 基准测试 | MiniCPM-o 2.6 | GPT-4o | 类别 |
|---|---|---|---|
| MMLU(语言) | 72.3 | 88.7 | 一般知识 |
| MMBench(单图像) | 82.1 | 80.4 | 图像理解 |
| MMMU(多学科) | 57.5 | 69.1 | 高级推理 |
| OCRBench(图像文本) | 82.8 | 76.3 | OCR 质量 |
| HallusionBench(视觉 QA) | 53.2 | 53.8 | 视觉幻觉 |
| MathVista(视觉数学) | 64.5 | 63.8 | 数学推理 |
在单图像理解(MMBench)和 OCR 任务(OCRBench)上,MiniCPM-o 2.6 实际上超越了 GPT-4o。在一般知识(MMLU)和多学科推理(MMMU)上,GPT-4o 保持领先。
运行 MiniCPM-o 需要什么硬件?
与许多竞争的多模态模型不同,MiniCPM-o 设计为可在消费级硬件上运行。
# 使用 Transformers 安装
pip install transformers torch
# 加载 MiniCPM-o 2.6
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained(
"openbmb/MiniCPM-o-2_6",
trust_remote_code=True,
torch_dtype=torch.bfloat16,
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("openbmb/MiniCPM-o-2_6", trust_remote_code=True)
| 硬件 | 模型大小 | 推理速度 | 备注 |
|---|---|---|---|
| RTX 4090(24GB VRAM) | 8B | 25-30 代币/秒 | 单 GPU 全模型 |
| RTX 3090(24GB VRAM) | 8B | 20-25 代币/秒 | 单 GPU 全模型 |
| RTX 4060(8GB VRAM) | 8B(4 位) | 15-20 代币/秒 | 需要量化 |
| Apple M2/M3(16GB+) | 8B | 10-15 代币/秒 | 通过 MLX 或 llama.cpp |
| 仅 CPU | 8B(4 位) | 3-5 代币/秒 | 非常慢,不建议 |
常见问题
什么是 MiniCPM-o?
MiniCPM-o 是 OpenBMB 推出的一系列开源多模态 LLM,能同时处理视觉、语音和文本。它支持全双工语音交互,并在单图像理解基准测试上超越 GPT-4o。
有哪些模型版本可供选择?
旗舰版 MiniCPM-o 2.6(8B 参数)提供视觉+文本和视觉+语音+文本两种变体。早期版本包括 MiniCPM-V 2.6 和 MiniCPM-Llama3-V 2.5。
MiniCPM-o 提供哪些全双工能力?
全双工语音交互包括实时 ASR、语音活动检测、同时听和生成、情感语音合成、多轮对话和打断处理——全部低于 300 毫秒延迟。
MiniCPM-o 在基准测试上与 GPT-4o 相比如何?
MiniCPM-o 2.6 在单图像理解(MMBench:82.1 对比 80.4)和 OCR(OCRBench:82.8 对比 76.3)上超越 GPT-4o。GPT-4o 在一般知识(MMLU:88.7 对比 72.3)和多学科推理(MMMU:69.1 对比 57.5)上保持领先。
运行 MiniCPM-o 需要什么硬件?
8B 模型可在单张 RTX 4090/3090(24GB VRAM)上运行。使用 4 位量化后,可在 8GB GPU 上运行。Apple Silicon 用户可通过 MLX 获得合理的性能。
延伸阅读
flowchart TB
A[输入] --> B{模态}
B --> C[图像]
B --> D[语音]
B --> E[文本]
C --> F[视觉编码器(SigLIP)]
D --> G[语音编码器(Whisper)]
E --> H[文本标记器]
F --> I[投影层]
G --> I
H --> I
I --> J[MiniCPM LLM 主干]
J --> K[文本解码器]
J --> L[语音解码器]
K --> M[文本输出]
L --> N[语音输出]graph TD
subgraph 基准测试比较
A["GPT-4o 最佳:MMLU 88.7"]
B["MiniCPM-o 最佳:MMBench 82.1"]
C["平手:HallusionBench 约 53.5"]
end
subgraph 硬件需求
D["RTX 4090:全模型,30 tok/s"]
E["RTX 4060:4 位模型,20 tok/s"]
F["Apple M3:MLX,15 tok/s"]
end
subgraph 使用场景
G["语音助手"]
H["文档 OCR"]
I["图像标题生成"]
J["多模态聊天"]
end
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!