MediaCrawler:开源社交媒体数据爬虫,获 3 万颗星
社交媒体数据是市场研究、趋势分析和竞争情报的金矿——但要通过编程方式访问却出了名地困难。平台会主动封锁爬虫、变更 API 并要求复杂的认证流程。MediaCrawler 已成为应对这一挑战最受欢迎的开源解决方案之一,拥有超过 30,000 个 GitHub 星标,并支持所有主要的中文社交媒 …
社交媒体数据是市场研究、趋势分析和竞争情报的金矿——但要通过编程方式访问却出了名地困难。平台会主动封锁爬虫、变更 API 并要求复杂的认证流程。MediaCrawler 已成为应对这一挑战最受欢迎的开源解决方案之一,拥有超过 30,000 个 GitHub 星标,并支持所有主要的中文社交媒 …
如果您曾看过 3Blue1Brown 任何富有数学内涵的 YouTube 视频,那您早已见识过 Manim 的实际应用。原始的 Manim(Mathematical Animation Engine,数学动画引擎)由 Grant Sanderson 编写,专门用来制作定义其频道风格的那些惊 …
终端仍然是软件开发中最强大的界面,而 AI 代码代理正让它变得更加强大。Kimi Code CLI(kimi-cli 项目的一部分)是 Moonshot AI 在此领域的开源作品——一个基于终端的 AI 代理,能够读取和编辑代码、执行 shell 命令以及搜索网络,全部在命令行中完成。
检索增强生成(RAG)已成为将 LLM 输出锚定于外部知识的标准方法。但标准 RAG 有一个根本限制:它将每个查询视为独立事件,没有对过去检索的记忆,也无法跨文档连接信息。HippoRAG 从人类大脑的海马体中汲取灵感来克服这一限制,创建了一个能大幅改善多跳问答的长期记忆系统。
大多数 AI 代理是静态的——它们的行为在部署时就由系统提示和模型权重固定下来。当它们遇到未曾设计过的新情况时会发生什么?它们会失败,然后开发者必须手动更新代理。Nous Research 的 Hermes Agent 采用了一种根本不同的方法:它从自己的经验中学习,并随时间自动改进自身行 …
大型语言模型功能强大,但其体积使得部署成本高昂。一个 700 亿参数的 16 位精度模型需要 140GB 的 GPU 内存——远超单一消费级 GPU 的容量。量化是主要的解决方案:降低数值精度以缩小内存占用并加速推理。由 ModelCloud 开发的 GPTQModel 是一个生产级量化工 …