多模態

AI May 02, 2026

LLaMA-VID：一張圖片僅需 2 個 Token——實現 LLM 高效長影片理解

LLaMA-VID（大型語言與影片助手）是 ECCV 2024 的研究專案，針對 LLM 影片理解中的根本瓶頸：Token 效率。雖然現代 LLM 擁有 128K 到 200K Token 的上下文視窗，但先前的多模態方法每個影片幀消耗 100 到 500 個 Token，使得即使是短暫的 …

AI May 02, 2026

在快速發展的視覺語言模型領域，一個來自意想不到角落的新重量級選手出現了。由字節跳動 Seed 團隊開發的 Seed1.5-VL，在涵蓋影像理解、影片理解、文件解析和多影像推理的 60 個公開基準測試中，驚人地在 38 項中達到了業界最佳水準。

AI May 02, 2026

執行視覺語言模型 —— 能夠同時理解影像與文字的 AI 系統 —— 傳統上需要昂貴且具備大量 VRAM 的 NVIDIA GPU。Apple Silicon 使用者在很大程度上被排除在多模態 AI 革命之外，被迫依賴雲端 API 或雙機設定。開發者 Blaizzy 推出的 MLX-VLM …

AI May 02, 2026

模型上下文協議 (MCP) 正在重塑 AI 應用程式的通訊方式，但大多數 MCP 工具仍然狹隘地專注於文字和資料查詢。Pixelle-MCP 打破了這個限制，將 ComfyUI——最受歡迎的 AI 生成內容視覺工作流程引擎——轉變為一個完整的多模態 MCP 伺服器。由阿里巴巴的 …