AI

MiniCPM-o: LLM Multimodal de Codigo Abierto para Vision, Voz y Texto

MiniCPM-o es una serie de LLM multimodales de codigo abierto capaces de procesar vision, voz y texto simultaneamente, superando a GPT-4o en comprension de imagen unica.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
MiniCPM-o: LLM Multimodal de Codigo Abierto para Vision, Voz y Texto

Los modelos de IA multimodales que pueden procesar simultaneamente vision, voz y texto representan la vanguardia de la inteligencia artificial. GPT-4o de OpenAI demostro el potencial de este enfoque, pero su naturaleza cerrada ha dejado a la comunidad de codigo abierto corriendo para ponerse al dia. MiniCPM-o, desarrollado por OpenBMB (derivado del laboratorio NLP de la Universidad de Tsinghua), ha logrado un hito notable: supera a GPT-4o en benchmarks de comprension de imagen unica mientras iguala o supera en tareas de voz, todo en un paquete de codigo abierto.

El proyecto en github.com/OpenBMB/MiniCPM-o representa una serie de LLM multimodales que extienden la impresionante relacion rendimiento-tamano de la familia MiniCPM al dominio multimodal. MiniCPM-o soporta interaccion de voz full-duplex, lo que significa que puede escuchar y hablar simultaneamente, como una conversacion natural, junto con comprension de imagenes, reconocimiento optico de caracteres y capacidades de dialogo de multiples turnos.

Lo que hace particularmente notable a MiniCPM-o es la eficiencia de su arquitectura. Mientras que GPT-4o probablemente requiere enormes recursos computacionales, MiniCPM-o logra resultados competitivos o superiores en benchmarks clave con un modelo que puede ejecutarse en hardware de consumo. Esta democratizacion de las capacidades de IA multimodal lo ha convertido en uno de los lanzamientos de IA de codigo abierto mas importantes de los ultimos anos.

Que es MiniCPM-o?

MiniCPM-o es una serie de LLM multimodales de codigo abierto que procesan vision, voz y texto simultaneamente. Desarrollado por OpenBMB, se basa en la familia de modelos de lenguaje MiniCPM y la extiende con capacidades de comprension visual y de voz. Soporta interaccion de voz full-duplex, comprension de imagen unica y multiple, y logra resultados de ultima generacion en varios benchmarks clave.

Que versiones de modelo estan disponibles?

MiniCPM-o viene en varias variantes optimizadas para diferentes casos de uso.

ModeloParametrosModalidadesFortaleza Clave
MiniCPM-o 2.68BVision + TextoMejor comprension de imagen en su clase
MiniCPM-o 2.6 (Voz)8BVision + Voz + TextoInteraccion de voz full-duplex
MiniCPM-V 2.68BVision + TextoVLM puro, menor uso de recursos
MiniCPM-Llama3-V 2.59BVision + TextoBasado en LLaMA, ecosistema mas amplio

La version 2.6 es la actual insignia, introduciendo capacidades de voz ausentes en versiones anteriores.

Que capacidades full-duplex ofrece MiniCPM-o?

La interaccion de voz full-duplex es la caracteristica destacada de MiniCPM-o: puede escuchar y hablar simultaneamente, como una conversacion humana.

CapacidadDescripcionLatencia
ASR en tiempo realReconocimiento automatico de voz durante el habla<200ms
Deteccion de actividad de vozDetectar cuando el usuario comienza/deja de hablar<100ms
Escucha y generacion simultaneasGenerar respuesta mientras el usuario aun hablaTiempo real
Sintesis de voz emocionalGenerar voz con tono emocional apropiado<300ms
Conversacion de multiples turnosMantener contexto a traves de turnos de vozN/A
Manejo de interrupcionesManejar elegantemente ser interrumpido en medio de una respuesta<150ms

Esta capacidad full-duplex hace que MiniCPM-o sea adecuado para asistentes de voz, automatizacion de centros de llamadas y aplicaciones de voz interactivas.

Como se desempena MiniCPM-o comparado con GPT-4o?

MiniCPM-o logra resultados notables en benchmarks estandar, a menudo igualando o superando a GPT-4o.

BenchmarkMiniCPM-o 2.6GPT-4oCategoria
MMLU (lenguaje)72.388.7Conocimiento general
MMBench (imagen unica)82.180.4Comprension de imagen
MMMU (multi-disciplina)57.569.1Razonamiento avanzado
OCRBench (texto en imagenes)82.876.3Calidad OCR
HallusionBench (QA visual)53.253.8Alucinacion visual
MathVista (matematicas visuales)64.563.8Razonamiento matematico

En comprension de imagen unica (MMBench) y tareas OCR (OCRBench), MiniCPM-o 2.6 realmente supera a GPT-4o. En conocimiento general (MMLU) y razonamiento multi-disciplina (MMMU), GPT-4o mantiene el liderazgo.

Que hardware se requiere para ejecutar MiniCPM-o?

MiniCPM-o esta disenado para ser accesible en hardware de consumo, a diferencia de muchos modelos multimodales competidores.

# Instalar con Transformers
pip install transformers torch

# Cargar MiniCPM-o 2.6
from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained(
    "openbmb/MiniCPM-o-2_6",
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("openbmb/MiniCPM-o-2_6", trust_remote_code=True)
HardwareTamano del ModeloVelocidad de InferenciaNotas
RTX 4090 (24GB VRAM)8B25-30 tok/sModelo completo en una GPU
RTX 3090 (24GB VRAM)8B20-25 tok/sModelo completo en una GPU
RTX 4060 (8GB VRAM)8B (4-bit)15-20 tok/sRequiere cuantizacion
Apple M2/M3 (16GB+)8B10-15 tok/sVia MLX o llama.cpp
Solo CPU8B (4-bit)3-5 tok/sMuy lento, no recomendado

Preguntas Frecuentes

Que es MiniCPM-o?

MiniCPM-o es una serie de LLM multimodales de codigo abierto de OpenBMB que procesan vision, voz y texto simultaneamente. Soporta interaccion de voz full-duplex y supera a GPT-4o en benchmarks de comprension de imagen unica.

Que versiones de modelo estan disponibles?

La version insignia MiniCPM-o 2.6 (8B parametros) viene en variantes Vision+Texto y Vision+Voz+Texto. Las versiones anteriores incluyen MiniCPM-V 2.6 y MiniCPM-Llama3-V 2.5.

Que capacidades full-duplex ofrece MiniCPM-o?

La interaccion de voz full-duplex incluye ASR en tiempo real, deteccion de actividad de voz, escucha y generacion simultaneas, sintesis de voz emocional, conversacion de multiples turnos y manejo de interrupciones, todo con latencia por debajo de 300ms.

Como se compara MiniCPM-o con GPT-4o en benchmarks?

MiniCPM-o 2.6 supera a GPT-4o en comprension de imagen unica (MMBench: 82.1 vs 80.4) y OCR (OCRBench: 82.8 vs 76.3). GPT-4o lidera en conocimiento general (MMLU: 88.7 vs 72.3) y razonamiento multi-disciplina (MMMU: 69.1 vs 57.5).

Que hardware se requiere para ejecutar MiniCPM-o?

El modelo de 8B se ejecuta en una sola RTX 4090/3090 con 24GB VRAM. Con cuantizacion de 4 bits, se ejecuta en GPUs de 8GB. Los usuarios de Apple Silicon pueden usar MLX para un rendimiento razonable.

Lecturas Adicionales

TAG
CATEGORIES