LLaMA-VID:一張圖片僅需 2 個 Token——實現 LLM 高效長影片理解
LLaMA-VID(大型語言與影片助手)是 ECCV 2024 的研究專案,針對 LLM 影片理解中的根本瓶頸:Token 效率。雖然現代 LLM 擁有 128K 到 200K Token 的上下文視窗,但先前的多模態方法每個影片幀消耗 100 到 500 個 Token,使得即使是短暫的 …
LLaMA-VID(大型語言與影片助手)是 ECCV 2024 的研究專案,針對 LLM 影片理解中的根本瓶頸:Token 效率。雖然現代 LLM 擁有 128K 到 200K Token 的上下文視窗,但先前的多模態方法每個影片幀消耗 100 到 500 個 Token,使得即使是短暫的 …
LightRAG 是香港大學 (HKU) 的一項研究專案,重新想像了使用知識圖譜的檢索增強生成(RAG)。該專案已被 EMNLP 2025 收錄,以基於圖形的架構取代傳統的平面向量儲存方法,從文件中提取實體及其關係,為 LLM 應用提供顯著更好的上下文理解。
Animate Anyone 是阿里巴巴 HumanAIGC 團隊的一項研究專案,能將單張照片轉變為人物行走、跳舞或執行任何姿勢序列的完整動畫影片——同時以非凡的保真度維持角色的身份、服裝和外觀。它代表了使用擴散模型進行影像到影片合成最令人印象深刻的應用之一。
大型語言模型在一般知識與語言生成方面取得了令人矚目的進展,但複雜推理——多步驟數學問題、形式邏輯、演算法編碼——仍然是一個挑戰,特別是對於較小的模型。由 Gen-Verse 開發並被 NeurIPS 2025 接受的 ReasonFlux,從一個新穎的角度解決這個問題:與其擴大模型規模,不 …
開源 AI 代理領域有一位新的領導者。由 FoundationAgents(MetaGPT 的同一團隊)開發的 OpenManus 已迅速成長到超過 55,000 個 GitHub 星星,透過提供社群迫切想要的東西:一個靈活、模組化且真正開放的框架,用於建構通用 AI 代理。
使用 AI 代理進行軟體開發的概念並不新鮮,但 MetaGPT 將它推向了前所未有的高度。它不是部署單一 AI 來撰寫程式碼,而是創建了一個完全由 AI 代理組成的模擬軟體公司——每個代理都有特定的角色、專業知識與責任。 由 FoundationAgents 開發,MetaGPT 已在 …