Tags

Reasoning

Understand R1-Zero:深入探索 DeepSeek R1 的强化学习
AI

Understand R1-Zero:深入探索 DeepSeek R1 的强化学习

DeepSeek R1-Zero 代表了 AI 推理的一项突破,它证明了纯强化学习(无需监督式微调)可以在语言模型中产生复杂的思维链推理。由 sail-sg(新加坡管理大学)开发的 Understand R1-Zero 项目,对其底层运作方式进行了全面分析。 该项目对 R1-Zero 的训 …

Thinking Claude:增强 Claude AI 的推理能力
AI

Thinking Claude:增强 Claude AI 的推理能力

提示工程已成为从大型语言模型中获得最佳结果的关键技能。由 richards199999 创建的 Thinking Claude,是一个专门设计用于通过思维链、自我反思和系统化思考方法来增强 Claude 推理能力的结构化提示技术集合。 该项目提供了精心制作的提示模板,引导 Claude 进 …

TAG
CATEGORIES