开源

AI May 02, 2026

Nexus Skills：用于 AI 编码助手的原生代码库智能

Nexus Skills 是一个开源工具，解决 AI 辅助开发中最昂贵的问题之一：代码库上下文。当你告诉 AI 编码助手「找出用户验证在哪里处理」时，它要么需要将整个代码库放入其上下文窗口（消耗数千个 token），要么你必须手动搜索并粘贴相关文件（浪费你的时间）。Nexus Skills …

AI May 02, 2026

LLaMA-VID（大型语言与视频助手）是 ECCV 2024 的研究项目，针对 LLM 视频理解中的根本瓶颈：Token 效率。虽然现代 LLM 拥有 128K 到 200K Token 的上下文窗口，但先前的多模态方法每个视频帧消耗 100 到 500 个 Token，使得即使是短暂的 …

AI May 02, 2026

LightRAG 是香港大学 (HKU) 的一项研究项目，重新构想了使用知识图谱的检索增强生成（RAG）。该项目已被 EMNLP 2025 收录，以基于图形的架构取代传统的平面向量存储方法，从文档中提取实体及其关系，为 LLM 应用提供显著更好的上下文理解。

AI May 02, 2026

Animate Anyone 是阿里巴巴 HumanAIGC 团队的一项研究项目，能将单张照片转变为人物行走、跳舞或执行任何姿势序列的完整动画视频——同时以非凡的保真度维持角色的身份、服装和外观。它代表了使用扩散模型进行图像到视频合成最令人印象深刻的应用之一。

AI May 02, 2026

Model Context Protocol（MCP）正迅速成为连接 AI 应用程序与外部工具和数据源的标准协议，但一直缺少一个精致、开放且可自托管的客户端来与任何 MCP 服务器对话。Open MCP Client 填补了这个空白。由 CopilotKit 构建，这个开源网页应用程序提供 …

AI May 02, 2026

PDF 文档是共享信息的通用格式，但对软件来说却出了名的难以解析。传统的 PDF 解析器在处理复杂布局、嵌入式表格、数学符号和多栏文本时往往力不从心。GPT-PDF 采取了一种截然不同的方法：它不是试图理解 PDF 的内部结构，而是让视觉 LLM 将每个页面视为图片来查看，并用干净的 …