MiniCPM-o：开源多模态 LLM，支持视觉、语音和文本

MiniCPM-o 是一系列开源多模态 LLM，能同时处理视觉、语音和文本，在单图像理解上超越 GPT-4o。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 03, 2026 阅读 11 分钟

能够同时处理视觉、语音和文本的多模态 AI 模型代表了人工智能的前沿。OpenAI 的 GPT-4o 展示了这种方法的潜力，但其封闭性使开源社区奋起直追。由 OpenBMB（清华大学 NLP 实验室的衍生团队）开发的 MiniCPM-o 实现了一个非凡的里程碑：它在单图像理解基准测试上超越 GPT-4o，同时在语音任务上与 GPT-4o 匹敌或超越——而且全部以开源包形式提供。

位于 github.com/OpenBMB/MiniCPM-o 的项目代表了一系列多模态 LLM，将 MiniCPM 家族令人印象深刻的性能与体积比扩展到多模态领域。MiniCPM-o 支持全双工语音交互——意味着它可以同时听和说，就像自然对话一样——同时具备图像理解、光学字符识别和多轮对话能力。

MiniCPM-o 特别引人注目的是其架构的效率。虽然 GPT-4o 可能需要巨大的计算资源，但 MiniCPM-o 在关键基准测试上以可在消费级硬件上运行的模型达到了竞争性或更优的结果。这种多模态 AI 能力的普及化使其成为近年来最重要的开源 AI 发布之一。

什么是 MiniCPM-o？

MiniCPM-o 是一系列开源多模态 LLM，能同时处理视觉、语音和文本。由 OpenBMB 开发，它建立在 MiniCPM 语言模型家族之上，并扩展了视觉和语音理解能力。它支持全双工语音交互、单图像和多图像理解，并在多个关键基准测试上达到了最先进的结果。

有哪些模型版本可供选择？

MiniCPM-o 提供多种变体，针对不同使用场景进行了优化。

模型	参数量	模态	关键优势
MiniCPM-o 2.6	8B	视觉 + 文本	同级最佳图像理解
MiniCPM-o 2.6（语音）	8B	视觉 + 语音 + 文本	全双工语音交互
MiniCPM-V 2.6	8B	视觉 + 文本	纯 VLM，资源使用更低
MiniCPM-Llama3-V 2.5	9B	视觉 + 文本	基于 LLaMA，生态系统更广

2.6 版本是目前旗舰版，引入了早期版本所没有的语音能力。

MiniCPM-o 提供哪些全双工能力？

全双工语音交互是 MiniCPM-o 的突出特色——它可以像人类对话一样同时听和说。

能力	描述	延迟
实时 ASR	语音期间自动语音识别	<200 毫秒
语音活动检测	检测用户何时开始/停止说话	<100 毫秒
同时听 + 生成	在用户还在说话时生成回应	实时
情感语音合成	以适当的情感语调生成语音	<300 毫秒
多轮对话	在语音轮次中保持上下文	不适用
打断处理	优雅地处理回应过程中被打断的情况	<150 毫秒

这种全双工能力使 MiniCPM-o 适用于语音助手、客服中心自动化和交互式语音应用。

MiniCPM-o 与 GPT-4o 相比表现如何？

MiniCPM-o 在标准基准测试上达到了非凡的结果，经常与 GPT-4o 匹敌或超越。

基准测试	MiniCPM-o 2.6	GPT-4o	类别
MMLU（语言）	72.3	88.7	一般知识
MMBench（单图像）	82.1	80.4	图像理解
MMMU（多学科）	57.5	69.1	高级推理
OCRBench（图像文本）	82.8	76.3	OCR 质量
HallusionBench（视觉 QA）	53.2	53.8	视觉幻觉
MathVista（视觉数学）	64.5	63.8	数学推理

在单图像理解（MMBench）和 OCR 任务（OCRBench）上，MiniCPM-o 2.6 实际上超越了 GPT-4o。在一般知识（MMLU）和多学科推理（MMMU）上，GPT-4o 保持领先。

运行 MiniCPM-o 需要什么硬件？

与许多竞争的多模态模型不同，MiniCPM-o 设计为可在消费级硬件上运行。

# 使用 Transformers 安装
pip install transformers torch

# 加载 MiniCPM-o 2.6
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained(
    "openbmb/MiniCPM-o-2_6",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("openbmb/MiniCPM-o-2_6", trust_remote_code=True)

硬件	模型大小	推理速度	备注
RTX 4090（24GB VRAM）	8B	25-30 代币/秒	单 GPU 全模型
RTX 3090（24GB VRAM）	8B	20-25 代币/秒	单 GPU 全模型
RTX 4060（8GB VRAM）	8B（4 位）	15-20 代币/秒	需要量化
Apple M2/M3（16GB+）	8B	10-15 代币/秒	通过 MLX 或 llama.cpp
仅 CPU	8B（4 位）	3-5 代币/秒	非常慢，不建议

常见问题

什么是 MiniCPM-o？

MiniCPM-o 是 OpenBMB 推出的一系列开源多模态 LLM，能同时处理视觉、语音和文本。它支持全双工语音交互，并在单图像理解基准测试上超越 GPT-4o。

有哪些模型版本可供选择？

旗舰版 MiniCPM-o 2.6（8B 参数）提供视觉+文本和视觉+语音+文本两种变体。早期版本包括 MiniCPM-V 2.6 和 MiniCPM-Llama3-V 2.5。

MiniCPM-o 提供哪些全双工能力？

全双工语音交互包括实时 ASR、语音活动检测、同时听和生成、情感语音合成、多轮对话和打断处理——全部低于 300 毫秒延迟。

MiniCPM-o 在基准测试上与 GPT-4o 相比如何？

MiniCPM-o 2.6 在单图像理解（MMBench：82.1 对比 80.4）和 OCR（OCRBench：82.8 对比 76.3）上超越 GPT-4o。GPT-4o 在一般知识（MMLU：88.7 对比 72.3）和多学科推理（MMMU：69.1 对比 57.5）上保持领先。

运行 MiniCPM-o 需要什么硬件？

8B 模型可在单张 RTX 4090/3090（24GB VRAM）上运行。使用 4 位量化后，可在 8GB GPU 上运行。Apple Silicon 用户可通过 MLX 获得合理的性能。

延伸阅读

flowchart TB
    A[输入] --> B{模态}
    B --> C[图像]
    B --> D[语音]
    B --> E[文本]
    C --> F[视觉编码器（SigLIP）]
    D --> G[语音编码器（Whisper）]
    E --> H[文本标记器]
    F --> I[投影层]
    G --> I
    H --> I
    I --> J[MiniCPM LLM 主干]
    J --> K[文本解码器]
    J --> L[语音解码器]
    K --> M[文本输出]
    L --> N[语音输出]

graph TD
    subgraph 基准测试比较
        A["GPT-4o 最佳：MMLU 88.7"]
        B["MiniCPM-o 最佳：MMBench 82.1"]
        C["平手：HallusionBench 约 53.5"]
    end
    subgraph 硬件需求
        D["RTX 4090：全模型，30 tok/s"]
        E["RTX 4060：4 位模型，20 tok/s"]
        F["Apple M3：MLX，15 tok/s"]
    end
    subgraph 使用场景
        G["语音助手"]
        H["文档 OCR"]
        I["图像标题生成"]
        J["多模态聊天"]
    end

MiniCPM-o：开源多模态 LLM，支持视觉、语音和文本

什么是 MiniCPM-o？

有哪些模型版本可供选择？

MiniCPM-o 提供哪些全双工能力？

MiniCPM-o 与 GPT-4o 相比表现如何？

运行 MiniCPM-o 需要什么硬件？

常见问题

什么是 MiniCPM-o？

有哪些模型版本可供选择？

MiniCPM-o 提供哪些全双工能力？

MiniCPM-o 在基准测试上与 GPT-4o 相比如何？

运行 MiniCPM-o 需要什么硬件？

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

MiniCPM-o：开源多模态 LLM，支持视觉、语音和文本

什么是 MiniCPM-o？

有哪些模型版本可供选择？

MiniCPM-o 提供哪些全双工能力？

MiniCPM-o 与 GPT-4o 相比表现如何？

运行 MiniCPM-o 需要什么硬件？

常见问题

什么是 MiniCPM-o？

有哪些模型版本可供选择？

MiniCPM-o 提供哪些全双工能力？

MiniCPM-o 在基准测试上与 GPT-4o 相比如何？

运行 MiniCPM-o 需要什么硬件？

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险