視覺語言模型

AI May 03, 2026

InternVL：擴展至 241B 參數的開源視覺語言模型系列

InternVL 是由上海人工智慧實驗室的 OpenGVLab 開發的一系列開源視覺語言基礎模型。InternVL 系列將視覺 Transformer 擴展至 60 億個參數，並逐步與大型語言模型對齊，建立統一架構，在多項多模態基準測試中達到 GPT-4o 等級的表現。旗艦模型 …

AI May 02, 2026

執行視覺語言模型 —— 能夠同時理解影像與文字的 AI 系統 —— 傳統上需要昂貴且具備大量 VRAM 的 NVIDIA GPU。Apple Silicon 使用者在很大程度上被排除在多模態 AI 革命之外，被迫依賴雲端 API 或雙機設定。開發者 Blaizzy 推出的 MLX-VLM …