LLM

AI May 04, 2026

Chroma：开源的 AI 原生向量数据库

向量数据库已成为现代 AI 应用的支柱，为从语义搜索到检索增强生成的各种应用提供动力。Chroma 以独特的理念进入这个领域：优先考虑开发者体验和 AI 原生设计，而非原始企业功能。由前 Apple 和 Google 工程师创建，Chroma 已迅速成为 LLM 应用开发者中最受欢迎的选择 …

AI May 04, 2026

改进 AI 模型最昂贵的部分一直是数据：收集、清理和标注数百万个示例需要巨大的人力。AutoDidact 探索了一个诱人的替代方案：如果语言模型能够自学呢？由研究员 dCaples 创建，这个开源框架实现了迭代自我改进循环，其中 LLM 生成自己的训练数据、评估自己的输出并微调自己——完全 …

AI May 04, 2026

本地 AI 工具的爆炸性增长带来了一个新问题：设置完整的本地 AI 开发环境需要安装和配置多个独立的服务，每个服务都有自己的依赖项、配置和网络需求。Harbor 只需一条 docker compose up 命令就能解决这个问题，在本地机器上启动整个预配接的 AI 堆栈。

AI May 04, 2026

网页自动化传统上需要僵硬、脆弱的脚本。一个填写表单的 Selenium 测试需要知道每个元素的 ID、class 和 XPath。如果页面稍有变动，脚本就会失效。Browser Use 采取根本不同的方法：它不是使用脚本指令，而是将 LLM 驱动的代理控制权交给浏览器，让它像人类一样理解和 …

AI May 04, 2026

大型语言模型已经远远超出了消费级硬件的内存容量。一个 700 亿参数的模型在标准 16 位精度下需要 140 GB 的 GPU 内存——远远超过最昂贵的消费级 GPU。bitsandbytes 就是弥补这个差距的库，提供量化技术，使得在可负担的硬件上加载、训练和运行大型模型成为可能。

AI May 04, 2026

传统的网页抓取很脆弱。基于 CSS 选择器和 XPath 表达式建立的爬虫，在目标网站更新其 HTML 结构时就会失效。大规模维护爬虫变成了不断追赶版面变化、重构选择器和重新测试管线的游戏。ScrapeGraphAI 采用了一种根本不同的方法：它不硬编码提取规则，而是使用 LLM 从语义上 …