AI

MiniCPM-o:开源多模态 LLM,支持视觉、语音和文本

MiniCPM-o 是一系列开源多模态 LLM,能同时处理视觉、语音和文本,在单图像理解上超越 GPT-4o。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
MiniCPM-o:开源多模态 LLM,支持视觉、语音和文本

能够同时处理视觉、语音和文本的多模态 AI 模型代表了人工智能的前沿。OpenAI 的 GPT-4o 展示了这种方法的潜力,但其封闭性使开源社区奋起直追。由 OpenBMB(清华大学 NLP 实验室的衍生团队)开发的 MiniCPM-o 实现了一个非凡的里程碑:它在单图像理解基准测试上超越 GPT-4o,同时在语音任务上与 GPT-4o 匹敌或超越——而且全部以开源包形式提供。

位于 github.com/OpenBMB/MiniCPM-o 的项目代表了一系列多模态 LLM,将 MiniCPM 家族令人印象深刻的性能与体积比扩展到多模态领域。MiniCPM-o 支持全双工语音交互——意味着它可以同时听和说,就像自然对话一样——同时具备图像理解、光学字符识别和多轮对话能力。

MiniCPM-o 特别引人注目的是其架构的效率。虽然 GPT-4o 可能需要巨大的计算资源,但 MiniCPM-o 在关键基准测试上以可在消费级硬件上运行的模型达到了竞争性或更优的结果。这种多模态 AI 能力的普及化使其成为近年来最重要的开源 AI 发布之一。

什么是 MiniCPM-o?

MiniCPM-o 是一系列开源多模态 LLM,能同时处理视觉、语音和文本。由 OpenBMB 开发,它建立在 MiniCPM 语言模型家族之上,并扩展了视觉和语音理解能力。它支持全双工语音交互、单图像和多图像理解,并在多个关键基准测试上达到了最先进的结果。

有哪些模型版本可供选择?

MiniCPM-o 提供多种变体,针对不同使用场景进行了优化。

模型参数量模态关键优势
MiniCPM-o 2.68B视觉 + 文本同级最佳图像理解
MiniCPM-o 2.6(语音)8B视觉 + 语音 + 文本全双工语音交互
MiniCPM-V 2.68B视觉 + 文本纯 VLM,资源使用更低
MiniCPM-Llama3-V 2.59B视觉 + 文本基于 LLaMA,生态系统更广

2.6 版本是目前旗舰版,引入了早期版本所没有的语音能力。

MiniCPM-o 提供哪些全双工能力?

全双工语音交互是 MiniCPM-o 的突出特色——它可以像人类对话一样同时听和说。

能力描述延迟
实时 ASR语音期间自动语音识别<200 毫秒
语音活动检测检测用户何时开始/停止说话<100 毫秒
同时听 + 生成在用户还在说话时生成回应实时
情感语音合成以适当的情感语调生成语音<300 毫秒
多轮对话在语音轮次中保持上下文不适用
打断处理优雅地处理回应过程中被打断的情况<150 毫秒

这种全双工能力使 MiniCPM-o 适用于语音助手、客服中心自动化和交互式语音应用。

MiniCPM-o 与 GPT-4o 相比表现如何?

MiniCPM-o 在标准基准测试上达到了非凡的结果,经常与 GPT-4o 匹敌或超越。

基准测试MiniCPM-o 2.6GPT-4o类别
MMLU(语言)72.388.7一般知识
MMBench(单图像)82.180.4图像理解
MMMU(多学科)57.569.1高级推理
OCRBench(图像文本)82.876.3OCR 质量
HallusionBench(视觉 QA)53.253.8视觉幻觉
MathVista(视觉数学)64.563.8数学推理

在单图像理解(MMBench)和 OCR 任务(OCRBench)上,MiniCPM-o 2.6 实际上超越了 GPT-4o。在一般知识(MMLU)和多学科推理(MMMU)上,GPT-4o 保持领先。

运行 MiniCPM-o 需要什么硬件?

与许多竞争的多模态模型不同,MiniCPM-o 设计为可在消费级硬件上运行。

# 使用 Transformers 安装
pip install transformers torch

# 加载 MiniCPM-o 2.6
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained(
    "openbmb/MiniCPM-o-2_6",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("openbmb/MiniCPM-o-2_6", trust_remote_code=True)
硬件模型大小推理速度备注
RTX 4090(24GB VRAM)8B25-30 代币/秒单 GPU 全模型
RTX 3090(24GB VRAM)8B20-25 代币/秒单 GPU 全模型
RTX 4060(8GB VRAM)8B(4 位)15-20 代币/秒需要量化
Apple M2/M3(16GB+)8B10-15 代币/秒通过 MLX 或 llama.cpp
仅 CPU8B(4 位)3-5 代币/秒非常慢,不建议

常见问题

什么是 MiniCPM-o?

MiniCPM-o 是 OpenBMB 推出的一系列开源多模态 LLM,能同时处理视觉、语音和文本。它支持全双工语音交互,并在单图像理解基准测试上超越 GPT-4o。

有哪些模型版本可供选择?

旗舰版 MiniCPM-o 2.6(8B 参数)提供视觉+文本和视觉+语音+文本两种变体。早期版本包括 MiniCPM-V 2.6 和 MiniCPM-Llama3-V 2.5。

MiniCPM-o 提供哪些全双工能力?

全双工语音交互包括实时 ASR、语音活动检测、同时听和生成、情感语音合成、多轮对话和打断处理——全部低于 300 毫秒延迟。

MiniCPM-o 在基准测试上与 GPT-4o 相比如何?

MiniCPM-o 2.6 在单图像理解(MMBench:82.1 对比 80.4)和 OCR(OCRBench:82.8 对比 76.3)上超越 GPT-4o。GPT-4o 在一般知识(MMLU:88.7 对比 72.3)和多学科推理(MMMU:69.1 对比 57.5)上保持领先。

运行 MiniCPM-o 需要什么硬件?

8B 模型可在单张 RTX 4090/3090(24GB VRAM)上运行。使用 4 位量化后,可在 8GB GPU 上运行。Apple Silicon 用户可通过 MLX 获得合理的性能。

延伸阅读

TAG
CATEGORIES