IA

InternVL: Familia de Modelos de Lenguaje Visual de Codigo Abierto que Escala a 241B Parametros

InternVL del Laboratorio de IA de Shanghai escala transformers视觉es a 6B parametros y los alinea con LLMs, logrando rendimiento multimodal a nivel de GPT-4o.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
InternVL: Familia de Modelos de Lenguaje Visual de Codigo Abierto que Escala a 241B Parametros

InternVL es una serie de modelos fundacionales de lenguaje visual de codigo abierto desarrollados por OpenGVLab en el Laboratorio de Inteligencia Artificial de Shanghai. La familia InternVL escala los transformers视觉es a 6 mil millones de parametros y los alinea progresivamente con grandes modelos de lenguaje, creando una arquitectura unificada que logra rendimiento a nivel de GPT-4o en una amplia gama de evaluaciones multimodales. El modelo insignia InternVL2.5-241B representa uno de los modelos multimodales de codigo abierto mas grandes jamas lanzados.

El proyecto ha sido reconocido en CVPR 2024 y ha recibido una atencion significativa por demostrar que los modelos de lenguaje visual de codigo abierto pueden igualar o superar a los sistemas propietarios cuando se escalan adecuadamente. La arquitectura de InternVL maneja tareas que abarcan descripcion de imagenes, respuesta visual a preguntas, comprension de documentos, analisis de graficos y razonamiento multi-imagen, lo que lo convierte en una base versatil para aplicaciones de IA multimodal.

Como funciona la arquitectura de InternVL?

InternVL utiliza una estrategia de alineacion progresiva. El codificador visual (InternViT) se pre-entrena a escala – hasta 6B parametros – y luego se alinea con un LLM a traves de un mecanismo de procesamiento de alta resolucion dinamica cuidadosamente disenado. A diferencia de los VLM anteriores que reducen la resolucion de las imagenes a resoluciones fijas bajas, InternVL procesa las imagenes en su relacion de aspecto nativa dividiendolas dinamicamente en mosaicos, cada uno procesado a alta resolucion y luego fusionado para una comprension global.

Que tamanos de modelo estan disponibles?

ModeloCodificador VisualBackbone LLMParametros TotalesVentana de Contexto
InternVL2-1B300M0.5B1B128K
InternVL2-8B300M7B8B128K
InternVL2-26B300M25B26B128K
InternVL2-76B6B70B76B128K
InternVL2.5-241B6B235B241B256K

Rendimiento en Evaluaciones

InternVL2.5-241B logra resultados competitivos o de ultima generacion en evaluaciones multimodales importantes, a menudo igualando o superando a GPT-4o y Gemini Ultra en tareas de lenguaje visual.

EvaluacionInternVL2.5-241BGPT-4oGemini Ultra 1.5InternVL2-76B
MMMU (val)72.1%69.1%62.2%65.4%
MathVista66.8%63.8%61.3%60.2%
ChartQA85.3%81.6%79.8%80.1%
DocVQA92.7%90.2%88.9%88.5%
OCRBench851828810812

Que es el procesamiento dinamico de alta resolucion?

Los VLM tradicionales redimensionan todas las imagenes de entrada a una resolucion fija, perdiendo detalles criticos para tareas como la comprension de documentos o la lectura de graficos. El enfoque de mosaico dinamico de InternVL preserva la relacion de aspecto original dividiendo las imagenes en mosaicos de 448x448 pixeles. Cada mosaico es procesado independientemente por el codificador visual a resolucion completa, y las caracteristicas resultantes se fusionan con el contexto global para mantener tanto el detalle como la comprension holistica. Esto es especialmente valioso para documentos de texto denso, figuras cientificas y capturas de pantalla de interfaz de usuario donde los detalles finos importan.

Cual es la licencia de InternVL?

InternVL se publica bajo la Licencia MIT o Apache 2.0 dependiendo de la version especifica del modelo. Los pesos del modelo estan disponibles gratuitamente en Hugging Face, y el codigo de entrenamiento, los scripts de inferencia y las evaluaciones de referencia son todos de codigo abierto. Esta licencia permisiva ha permitido una adopcion generalizada tanto en la investigacion academica como en aplicaciones comerciales, incluyendo su uso en pipelines de procesamiento de documentos, herramientas de accesibilidad y sistemas de busqueda multimodal.

Puede InternVL manejar entrada de video?

Si bien InternVL esta disenado principalmente para la comprension de imagenes, la arquitectura se extiende naturalmente al video procesando los fotogramas como una secuencia de imagenes. El modelo puede razonar a traves de multiples fotogramas utilizando su ventana de contexto extendida, soportando tareas como descripcion de video, reconocimiento de actividades y razonamiento temporal. La ventana de contexto de 256K tokens en InternVL2.5-241B permite procesar docenas de fotogramas de alta resolucion en una sola pasada hacia adelante.

Como se compara InternVL con otros VLM de codigo abierto?

InternVL supera consistentemente a otros VLM de codigo abierto como LLaVA, Qwen-VL y CogVLM en evaluaciones estandar, particularmente en tareas que requieren comprension de alta resolucion como OCR y analisis de documentos. La variante de 241B lleva el rendimiento de los VLM de codigo abierto a una competencia directa con los sistemas propietarios por primera vez. Los tamanos de modelo intermedios (8B, 26B) ofrecen compromisos practicos para escenarios de despliegue donde el presupuesto computacional es limitado.

Preguntas Frecuentes

Que es InternVL? InternVL es una familia de modelos de lenguaje visual de codigo abierto desarrollada por el Laboratorio de IA de Shanghai que escala los transformers视觉es a 6B parametros, logrando rendimiento a nivel de GPT-4o.

Que versiones del modelo estan disponibles? Los tamanos van desde 1B hasta 241B parametros, siendo InternVL2.5-241B el modelo insignia que ofrece contexto de 256K y rendimiento multimodal de ultima generacion.

Cual es la arquitectura? InternVL utiliza una estrategia de alineacion progresiva con un codificador visual InternViT a gran escala, un proyector MLP y un backbone LLM estandar con mosaico dinamico de alta resolucion.

Como se desempena en las evaluaciones? InternVL2.5-241B logra resultados competitivos en MMMU (72.1%), MathVista (66.8%), ChartQA (85.3%) y DocVQA (92.7%), a menudo igualando o superando a GPT-4o.

Que licencia se utiliza? InternVL se publica bajo la Licencia MIT o Apache 2.0, con pesos del modelo disponibles gratuitamente en Hugging Face tanto para uso en investigacion como comercial.

Lecturas Adicionales

TAG
CATEGORIES