Tags

多模態

AI May 02, 2026

Seed1.5-VL：字節跳動的視覺語言基礎模型，在 38 項基準測試中達到 SOTA

在快速發展的視覺語言模型領域，一個來自意想不到角落的新重量級選手出現了。由字節跳動 Seed 團隊開發的 Seed1.5-VL，在涵蓋影像理解、影片理解、文件解析和多影像推理的 60 個公開基準測試中，驚人地在 38 項中達到了業界最佳水準。

AI May 02, 2026

MLX-VLM：在 Apple Silicon 上執行視覺語言模型推論與微調

執行視覺語言模型 —— 能夠同時理解影像與文字的 AI 系統 —— 傳統上需要昂貴且具備大量 VRAM 的 NVIDIA GPU。Apple Silicon 使用者在很大程度上被排除在多模態 AI 革命之外，被迫依賴雲端 API 或雙機設定。開發者 Blaizzy 推出的 MLX-VLM …

AI May 02, 2026

Pixelle-MCP：透過 MCP 橋接 ComfyUI 與 LLM 的開源多模態 AIGC 解決方案

模型上下文協議 (MCP) 正在重塑 AI 應用程式的通訊方式，但大多數 MCP 工具仍然狹隘地專注於文字和資料查詢。Pixelle-MCP 打破了這個限制，將 ComfyUI——最受歡迎的 AI 生成內容視覺工作流程引擎——轉變為一個完整的多模態 MCP 伺服器。由阿里巴巴的 …