LLaMA-VID: Una Imagen Vale 2 Tokens -- Comprensión Eficiente de Videos Largos con LLMs
LLaMA-VID es un proyecto de investigación de ECCV 2024 que aborda el cuello de botella fundamental en la comprensión de video con LLMs: la …
LLaMA-VID es un proyecto de investigación de ECCV 2024 que aborda el cuello de botella fundamental en la comprensión de video con LLMs: la …