Reasoning

AI May 05, 2026

Understand R1-Zero：深入探索 DeepSeek R1 的强化学习

DeepSeek R1-Zero 代表了 AI 推理的一项突破，它证明了纯强化学习（无需监督式微调）可以在语言模型中产生复杂的思维链推理。由 sail-sg（新加坡管理大学）开发的 Understand R1-Zero 项目，对其底层运作方式进行了全面分析。该项目对 R1-Zero 的训 …

AI May 05, 2026

提示工程已成为从大型语言模型中获得最佳结果的关键技能。由 richards199999 创建的 Thinking Claude，是一个专门设计用于通过思维链、自我反思和系统化思考方法来增强 Claude 推理能力的结构化提示技术集合。该项目提供了精心制作的提示模板，引导 Claude 进 …