视觉语言模型

AI May 03, 2026

InternVL：扩展至 241B 参数的开源视觉语言模型系列

InternVL 是由上海人工智能实验室的 OpenGVLab 开发的一系列开源视觉语言基础模型。InternVL 系列将视觉 Transformer 扩展至 60 亿个参数，并逐步与大型语言模型对齐，建立统一架构，在多项多模态基准测试中达到 GPT-4o 级别的表现。旗舰模型 …

AI May 02, 2026

运行视觉语言模型 —— 能够同时理解图像与文字的 AI 系统 —— 传统上需要昂贵且具备大量 VRAM 的 NVIDIA GPU。Apple Silicon 用户在很大程度上被排除在多模态 AI 革命之外，被迫依赖云端 API 或双机设置。开发者 Blaizzy 推出的 MLX-VLM 彻 …