多模态

AI May 02, 2026

LLaMA-VID：一张图片仅需 2 个 Token——实现 LLM 高效长视频理解

LLaMA-VID（大型语言与视频助手）是 ECCV 2024 的研究项目，针对 LLM 视频理解中的根本瓶颈：Token 效率。虽然现代 LLM 拥有 128K 到 200K Token 的上下文窗口，但先前的多模态方法每个视频帧消耗 100 到 500 个 Token，使得即使是短暂的 …

AI May 02, 2026

在快速发展的视觉语言模型领域，一个来自意想不到角落的新重量级选手出现了。由字节跳动 Seed 团队开发的 Seed1.5-VL，在涵盖图像理解、视频理解、文档解析和多图像推理的 60 个公开基准测试中，惊人地在 38 项中达到了业界最佳水平。

AI May 02, 2026

运行视觉语言模型 —— 能够同时理解图像与文字的 AI 系统 —— 传统上需要昂贵且具备大量 VRAM 的 NVIDIA GPU。Apple Silicon 用户在很大程度上被排除在多模态 AI 革命之外，被迫依赖云端 API 或双机设置。开发者 Blaizzy 推出的 MLX-VLM 彻 …

AI May 02, 2026

模型上下文协议 (MCP) 正在重塑 AI 应用程序的通信方式，但大多数 MCP 工具仍然狭隘地专注于文本和数据查询。Pixelle-MCP 打破了这一限制，将 ComfyUI——最受欢迎的 AI 生成内容可视化工作流引擎——转变为一个完整的的多模态 MCP 服务器。由阿里巴巴的 …