Understand R1-Zero:深入探索 DeepSeek R1 的强化学习
DeepSeek R1-Zero 代表了 AI 推理的一项突破,它证明了纯强化学习(无需监督式微调)可以在语言模型中产生复杂的思维链推理。由 sail-sg(新加坡管理大学)开发的 Understand R1-Zero 项目,对其底层运作方式进行了全面分析。 该项目对 R1-Zero 的训 …
DeepSeek R1-Zero 代表了 AI 推理的一项突破,它证明了纯强化学习(无需监督式微调)可以在语言模型中产生复杂的思维链推理。由 sail-sg(新加坡管理大学)开发的 Understand R1-Zero 项目,对其底层运作方式进行了全面分析。 该项目对 R1-Zero 的训 …
多数 AI 写作工具仅根据训练期间学到的知识来生成文章。斯坦福 OVAL 实验室开发的 STORM 采用了更严谨的方法:它通过多视角提问、网络搜索和信息整合来从头研究主题,产出结构完整的文章。 STORM 的灵感来自于产出高品质维基百科文章的写作过程,它模拟了研究和写作的工作流程。它识别主 …
科学研究过程以劳动密集而闻名,文献回顾、实验设计和验证往往耗费数月时间才能产生任何新贡献。AutoResearch(GitHub 上的 karpathy/autoresearch)是 Andrej Karpathy 对加速这个过程的愿景,通过一个 AI 驱动的研究助理,能够自主阅读论文、执 …
Prompt engineering has become an unexpected skill requirement in the AI era. Developers who wanted reliable LLM output learned to craft system …
检索增强生成(RAG)已成为将 LLM 输出锚定于外部知识的标准方法。但标准 RAG 有一个根本限制:它将每个查询视为独立事件,没有对过去检索的记忆,也无法跨文档连接信息。HippoRAG 从人类大脑的海马体中汲取灵感来克服这一限制,创建了一个能大幅改善多跳问答的长期记忆系统。