InternVL: Familia de Modelos de Lenguaje Visual de Codigo Abierto que Escala a 241B Parametros

InternVL del Laboratorio de IA de Shanghai escala transformers视觉es a 6B parametros y los alinea con LLMs, logrando rendimiento multimodal a nivel de GPT-4o.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 03, 2026 6 min de lectura

InternVL es una serie de modelos fundacionales de lenguaje visual de codigo abierto desarrollados por OpenGVLab en el Laboratorio de Inteligencia Artificial de Shanghai. La familia InternVL escala los transformers视觉es a 6 mil millones de parametros y los alinea progresivamente con grandes modelos de lenguaje, creando una arquitectura unificada que logra rendimiento a nivel de GPT-4o en una amplia gama de evaluaciones multimodales. El modelo insignia InternVL2.5-241B representa uno de los modelos multimodales de codigo abierto mas grandes jamas lanzados.

El proyecto ha sido reconocido en CVPR 2024 y ha recibido una atencion significativa por demostrar que los modelos de lenguaje visual de codigo abierto pueden igualar o superar a los sistemas propietarios cuando se escalan adecuadamente. La arquitectura de InternVL maneja tareas que abarcan descripcion de imagenes, respuesta visual a preguntas, comprension de documentos, analisis de graficos y razonamiento multi-imagen, lo que lo convierte en una base versatil para aplicaciones de IA multimodal.

Como funciona la arquitectura de InternVL?

InternVL utiliza una estrategia de alineacion progresiva. El codificador visual (InternViT) se pre-entrena a escala – hasta 6B parametros – y luego se alinea con un LLM a traves de un mecanismo de procesamiento de alta resolucion dinamica cuidadosamente disenado. A diferencia de los VLM anteriores que reducen la resolucion de las imagenes a resoluciones fijas bajas, InternVL procesa las imagenes en su relacion de aspecto nativa dividiendolas dinamicamente en mosaicos, cada uno procesado a alta resolucion y luego fusionado para una comprension global.

flowchart LR
    A[Imagen de Entrada] --> B[Mosaico Dinamico]
    B --> C[InternViT - Codif. Visual 6B]
    C --> D[Proyector MLP]
    D --> E[Backbone LLM]
    F[Entrada de Texto] --> G[Tokenizador de Texto]
    G --> E
    E --> H[Salida Multimodal]
    H --> I[Descripcion]
    H --> J[VQA]
    H --> K[Comprension de Documentos]

Que tamanos de modelo estan disponibles?

Modelo	Codificador Visual	Backbone LLM	Parametros Totales	Ventana de Contexto
InternVL2-1B	300M	0.5B	1B	128K
InternVL2-8B	300M	7B	8B	128K
InternVL2-26B	300M	25B	26B	128K
InternVL2-76B	6B	70B	76B	128K
InternVL2.5-241B	6B	235B	241B	256K

Rendimiento en Evaluaciones

InternVL2.5-241B logra resultados competitivos o de ultima generacion en evaluaciones multimodales importantes, a menudo igualando o superando a GPT-4o y Gemini Ultra en tareas de lenguaje visual.

Evaluacion	InternVL2.5-241B	GPT-4o	Gemini Ultra 1.5	InternVL2-76B
MMMU (val)	72.1%	69.1%	62.2%	65.4%
MathVista	66.8%	63.8%	61.3%	60.2%
ChartQA	85.3%	81.6%	79.8%	80.1%
DocVQA	92.7%	90.2%	88.9%	88.5%
OCRBench	851	828	810	812

Que es el procesamiento dinamico de alta resolucion?

Los VLM tradicionales redimensionan todas las imagenes de entrada a una resolucion fija, perdiendo detalles criticos para tareas como la comprension de documentos o la lectura de graficos. El enfoque de mosaico dinamico de InternVL preserva la relacion de aspecto original dividiendo las imagenes en mosaicos de 448x448 pixeles. Cada mosaico es procesado independientemente por el codificador visual a resolucion completa, y las caracteristicas resultantes se fusionan con el contexto global para mantener tanto el detalle como la comprension holistica. Esto es especialmente valioso para documentos de texto denso, figuras cientificas y capturas de pantalla de interfaz de usuario donde los detalles finos importan.

sequenceDiagram
    participant Image as Imagen de Entrada
    participant Tiler as Mosaico Dinamico
    participant ViT as Codif. InternViT
    participant Merger as Fusion de Caracts.
    participant LLM as Modelo de Lenguaje

    Image->>Tiler: Imagen 1920x1080
    Tiler->>Tiler: Calcular mosaicos optimos
    Tiler->>ViT: Mosaico 1 (448x448)
    Tiler->>ViT: Mosaico 2 (448x448)
    Tiler->>ViT: Mosaico 3 (448x448)
    Tiler->>ViT: Mosaico N...
    ViT-->>Merger: Caracts. por mosaico
    Image->>Merger: Caract. de miniatura global
    Merger->>Merger: Concatenar + proyectar
    Merger->>LLM: Tokens multimodales unificados
    LLM-->>User: Respuesta de texto

Cual es la licencia de InternVL?

InternVL se publica bajo la Licencia MIT o Apache 2.0 dependiendo de la version especifica del modelo. Los pesos del modelo estan disponibles gratuitamente en Hugging Face, y el codigo de entrenamiento, los scripts de inferencia y las evaluaciones de referencia son todos de codigo abierto. Esta licencia permisiva ha permitido una adopcion generalizada tanto en la investigacion academica como en aplicaciones comerciales, incluyendo su uso en pipelines de procesamiento de documentos, herramientas de accesibilidad y sistemas de busqueda multimodal.

Puede InternVL manejar entrada de video?

Si bien InternVL esta disenado principalmente para la comprension de imagenes, la arquitectura se extiende naturalmente al video procesando los fotogramas como una secuencia de imagenes. El modelo puede razonar a traves de multiples fotogramas utilizando su ventana de contexto extendida, soportando tareas como descripcion de video, reconocimiento de actividades y razonamiento temporal. La ventana de contexto de 256K tokens en InternVL2.5-241B permite procesar docenas de fotogramas de alta resolucion en una sola pasada hacia adelante.

Como se compara InternVL con otros VLM de codigo abierto?

InternVL supera consistentemente a otros VLM de codigo abierto como LLaVA, Qwen-VL y CogVLM en evaluaciones estandar, particularmente en tareas que requieren comprension de alta resolucion como OCR y analisis de documentos. La variante de 241B lleva el rendimiento de los VLM de codigo abierto a una competencia directa con los sistemas propietarios por primera vez. Los tamanos de modelo intermedios (8B, 26B) ofrecen compromisos practicos para escenarios de despliegue donde el presupuesto computacional es limitado.

Preguntas Frecuentes

Que es InternVL? InternVL es una familia de modelos de lenguaje visual de codigo abierto desarrollada por el Laboratorio de IA de Shanghai que escala los transformers视觉es a 6B parametros, logrando rendimiento a nivel de GPT-4o.

Que versiones del modelo estan disponibles? Los tamanos van desde 1B hasta 241B parametros, siendo InternVL2.5-241B el modelo insignia que ofrece contexto de 256K y rendimiento multimodal de ultima generacion.

Cual es la arquitectura? InternVL utiliza una estrategia de alineacion progresiva con un codificador visual InternViT a gran escala, un proyector MLP y un backbone LLM estandar con mosaico dinamico de alta resolucion.

Como se desempena en las evaluaciones? InternVL2.5-241B logra resultados competitivos en MMMU (72.1%), MathVista (66.8%), ChartQA (85.3%) y DocVQA (92.7%), a menudo igualando o superando a GPT-4o.

Que licencia se utiliza? InternVL se publica bajo la Licencia MIT o Apache 2.0, con pesos del modelo disponibles gratuitamente en Hugging Face tanto para uso en investigacion como comercial.

InternVL: Familia de Modelos de Lenguaje Visual de Codigo Abierto que Escala a 241B Parametros

Como funciona la arquitectura de InternVL?

Que tamanos de modelo estan disponibles?

Rendimiento en Evaluaciones

Que es el procesamiento dinamico de alta resolucion?

Cual es la licencia de InternVL?

Puede InternVL manejar entrada de video?

Como se compara InternVL con otros VLM de codigo abierto?

Preguntas Frecuentes

Lecturas Adicionales

LATEST POST

Workday, Anthropic y LISC lanzan aceleradora de solopreneurs con IA

Sensor Tower adquiere AppMagic para reforzar su línea de análisis para pymes

Musk, Cook y Fink se espera que se unan a la delegación de Trump en Pekín esta s

TAG

CATEGORIES