Categories

Open Source

OmniSVG:统一多模态 SVG 生成模型(NeurIPS 2025)
AI

OmniSVG:统一多模态 SVG 生成模型(NeurIPS 2025)

矢量图形无处不在——从图标和标志到插图和数据可视化。但以编程方式生成复杂的 SVG 一直是一个棘手的研究挑战,大多数方法仅限于简单的几何形状或需要大量的训练数据。发表于 NeurIPS 2025 的 OmniSVG 突破了这些限制,引入了第一个基于视觉语言模型的统一端到端多模态 SVG 生 …

NVIDIA OpenShell:安全、私有的自主 AI 代理运行环境
AI

NVIDIA OpenShell:安全、私有的自主 AI 代理运行环境

自主 AI 代理功能强大,但也伴随着显著的风险。具有 shell 访问权限的代理可能会意外删除文件、发送非预期的网络请求或泄露敏感数据。传统的容器化技术(Docker、gVisor)并非为 AI 应用所需的细粒度、代理专属安全策略而设计。NVIDIA OpenShell 以一个专为 AI …

MongoEngine:Python 对象文档映射器(ODM)for MongoDB
Python

MongoEngine:Python 对象文档映射器(ODM)for MongoDB

MongoDB 是最受欢迎的 NoSQL 数据库之一,但直接使用原始的 PyMongo 可能会显得冗长且容易出错。您会花太多时间编写用于文档验证、字段类型检查和关系管理的样板代码。MongoEngine 解决了这个问题,它为 MongoDB 带来了类似 Django 的声明式抽象层,在超过 …

MiniMax Skills:AI 代码代理的开源生产级技能
AI

MiniMax Skills:AI 代码代理的开源生产级技能

像 Claude Code 和 Cursor 这样的 AI 代码代理已成为现代软件开发不可或缺的工具。但它们的默认行为是通用的——它们需要结构化的指导才能产出符合您项目模式、风格和约定的代码。MiniMax Skills 正是为了解决这个问题而诞生,它提供了一套精心策划的生产级开发技能,可 …

MiniCPM-o:开源多模态 LLM,支持视觉、语音和文本
AI

MiniCPM-o:开源多模态 LLM,支持视觉、语音和文本

能够同时处理视觉、语音和文本的多模态 AI 模型代表了人工智能的前沿。OpenAI 的 GPT-4o 展示了这种方法的潜力,但其封闭性使开源社区奋起直追。由 OpenBMB(清华大学 NLP 实验室的衍生团队)开发的 MiniCPM-o 实现了一个非凡的里程碑:它在单图像理解基准测试上超越 …

MemPalace:基准测试表现最佳的开源 AI 记忆系统
AI

MemPalace:基准测试表现最佳的开源 AI 记忆系统

AI 代理在长期记忆方面一直存在困难。没有记忆,每一次对话都得从零开始——无法记得过去的任务、用户偏好或正在进行的项目。MemPalace 直指这一限制,采用了一种独特且雄心勃勃的方法:以古希腊**记忆宫殿(method of loci)**为模型的空间层级结构,这正是罗马演说家用來记住整 …

TAG
CATEGORIES