LAVIS: Biblioteca de IA de Lenguaje Visual de Salesforce

LAVIS es una biblioteca de aprendizaje profundo para investigación en lenguaje visual que admite BLIP, BLIP-2, InstructBLIP y tareas de recuperación, subtitulado y preguntas y respuestas.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 05, 2026 2 min de lectura

La IA de lenguaje visual (modelos que entienden tanto imágenes como texto) es una de las áreas de la inteligencia artificial que avanza más rápidamente. LAVIS (Biblioteca para Inteligencia de Lenguaje Visual) de Salesforce proporciona un marco unificado para entrenar, evaluar e implementar una amplia gama de modelos de lenguaje visual, incluyendo BLIP, BLIP-2, InstructBLIP y ALBEF.

LAVIS está diseñado tanto para investigadores como para profesionales. Los investigadores obtienen implementaciones limpias de modelos de vanguardia con puntos de referencia reproducibles, mientras que los profesionales obtienen una API simplificada para aplicar estos modelos a tareas del mundo real como subtitulado de imágenes, respuesta visual a preguntas y recuperación multimodal.

Modelos Compatibles

Modelo	Tareas	Año	Parámetros
BLIP	Subtitulado, recuperación, VQA	2022	470M
BLIP-2	Subtitulado, VQA, recuperación	2023	1.2B
InstructBLIP	VQA con instrucciones	2023	1.2B
ALBEF	Recuperación, anclaje	2021	210M
ALPRO	Tareas de video-lenguaje	2022	250M

Arquitectura del Modelo

flowchart LR
    A[Imagen] --> B[Codificador Visual<br/>ViT]
    C[Texto] --> D[Codificador de Texto<br/>BERT]
    B --> E[Atención Transmodal]
    D --> E
    E --> F{Estrategia de Fusión}
    F -->|BLIP| G[Codificador Multimodal]
    F -->|BLIP-2| H[Q-Former]
    F -->|InstructBLIP| I[Q-Former + LLM]
    G --> J[Salida]
    H --> J
    I --> J

Cada modelo en LAVIS utiliza una estrategia de fusión diferente. BLIP usa un codificador multimodal estándar, BLIP-2 introduce el Q-Former (un transformer ligero que conecta visión y texto), e InstructBLIP añade un LLM congelado para seguir instrucciones.

Rendimiento en Tareas

Tarea	BLIP-2	InstructBLIP	GPT-4V
Precisión VQAv2	65.0%	73.2%	75.5%
Subtitulado de imágenes (CIDEr)	136.7	142.3	145.1
Recuperación zero-shot	62.3%	67.8%	70.2%
Precisión OKVQA	52.4%	57.3%	61.8%

Para más información, visita el repositorio de GitHub de LAVIS y la documentación de LAVIS.

Preguntas Frecuentes

Q: ¿Qué hardware de GPU se recomienda para LAVIS? A: BLIP-2 e InstructBLIP requieren al menos 16 GB de memoria GPU. Modelos más pequeños como BLIP funcionan con 8 GB.

Q: ¿Puedo ajustar modelos en LAVIS con datos personalizados? A: Sí, LAVIS proporciona scripts de entrenamiento y archivos de configuración para ajuste fino en conjuntos de datos personalizados.

Q: ¿LAVIS admite entrada de video? A: Sí, a través del modelo ALPRO que maneja tareas de comprensión de video-lenguaje.

Q: ¿Es LAVIS compatible con PyTorch Lightning? A: Sí, LAVIS usa PyTorch y puede integrarse con Lightning para entrenamiento distribuido.

Q: ¿Qué formatos de conjuntos de datos admite LAVIS? A: COCO, Visual Genome, SBU Captions y formatos JSON/CSV personalizados a través de su módulo de datos.

LAVIS: Biblioteca de IA de Lenguaje Visual de Salesforce

Modelos Compatibles

Arquitectura del Modelo

Rendimiento en Tareas

Preguntas Frecuentes

LATEST POST

Workday, Anthropic y LISC lanzan aceleradora de solopreneurs con IA

Sensor Tower adquiere AppMagic para reforzar su línea de análisis para pymes

Musk, Cook y Fink se espera que se unan a la delegación de Trump en Pekín esta s

TAG

CATEGORIES