VILA: La Familia de Modelos de Lenguaje Visual de Codigo Abierto de NVIDIA NVlabs
Los Modelos de Lenguaje Visual (VLM) que pueden razonar sobre imagenes y texto se han convertido en una de las areas mas activas en la …
Los Modelos de Lenguaje Visual (VLM) que pueden razonar sobre imagenes y texto se han convertido en una de las areas mas activas en la …
Los graficos vectoriales estan en todas partes, desde iconos y logotipos hasta ilustraciones y visualizaciones de datos. Pero generar SVGs …
StoryDiffusion es un proyecto de investigación de la Universidad de Nankai y ByteDance que aborda uno de los problemas más difíciles en IA …
LLaMA-VID es un proyecto de investigación de ECCV 2024 que aborda el cuello de botella fundamental en la comprensión de video con LLMs: la …
Animate Anyone es un proyecto de investigación del grupo HumanAIGC de Alibaba que convierte una sola foto en un video completamente animado de …