Computer Vision

AI May 03, 2026

VILA：NVIDIA NVlabs 的开源视觉语言模型家族

能够同时推理图像和文字的视觉语言模型（VLM）已成为 AI 研究中最活跃的领域之一。由 NVIDIA Labs（NVlabs）开发的 VILA（视觉语言模型）代表了一个全面的开源 VLM 家族，专为多图像推理、视频理解和视觉链式思考而设计。这些模型设计为可从边缘设备扩展到云端部署，适用于机 …

AI May 03, 2026

矢量图形无处不在——从图标和标志到插图和数据可视化。但以编程方式生成复杂的 SVG 一直是一个棘手的研究挑战，大多数方法仅限于简单的几何形状或需要大量的训练数据。发表于 NeurIPS 2025 的 OmniSVG 突破了这些限制，引入了第一个基于视觉语言模型的统一端到端多模态 SVG 生 …