Computer Vision

AI May 03, 2026

VILA：NVIDIA NVlabs 的開源視覺語言模型家族

能夠同時推理圖像和文字的視覺語言模型（VLM）已成為 AI 研究中最活躍的領域之一。由 NVIDIA Labs（NVlabs）開發的 VILA（視覺語言模型）代表了一個全面的開源 VLM 家族，專為多圖像推理、影片理解和視覺鏈式思考而設計。這些模型設計為可從邊緣裝置擴展到雲端部署，適用於機 …

AI May 03, 2026

向量圖形無所不在——從圖標和標誌到插圖和資料視覺化。但以程式化方式生成複雜的 SVG 一直是一個棘手的研究挑戰，大多數方法僅限於簡單的幾何形狀或需要大量的訓練資料。發表於 NeurIPS 2025 的 OmniSVG 突破了這些限制，引入了第一個基於視覺語言模型的統一端到端多模態 SVG …