DeepSeek R1-Zero 代表了 AI 推理的一项突破,它证明了纯强化学习(无需监督式微调)可以在语言模型中产生复杂的思维链推理。由 sail-sg(新加坡管理大学)开发的 Understand R1-Zero 项目,对其底层运作方式进行了全面分析。
该项目对 R1-Zero 的训练方法进行了逆向工程,重现了关键实验,并提供了推理能力如何在 RL 训练期间涌现的可视化。它提供了关于奖励塑造、策略优化动态以及探索在发现推理策略中关键作用的见解。
研究发现
| 发现 | 启示 |
|---|---|
| 仅 RL 即可引发推理 | 思维链涌现无需监督数据 |
| 奖励塑造至关重要 | 简单的结果奖励优于过程奖励 |
| 探索驱动发现 | 随机策略扰动启用新推理路径 |
| 自我验证涌现 | 模型无需明确训练即可学会检查自己的工作 |
| 长度与准确度相关 | 更长的推理链产生更好的结果 |
训练动态
flowchart LR
A[基础模型] --> B[RL 训练循环]
B --> C[生成推理]
C --> D[评估答案]
D --> E{奖励}
E -->|正确| F[正向更新]
E -->|错误| G[负向更新]
F --> H[策略更新]
G --> H
H --> I{收敛?}
I -->|否| B
I -->|是| J[训练后的 R1-Zero 模型]训练循环非常简洁优雅。模型生成推理链和答案,根据正确性接收奖励信号,并通过强化学习更新其策略。经过数千次迭代,模型完全通过试错发现有效的推理策略。
不同训练阶段的关键发现
| 训练阶段 | 模型行为 | 奖励分数 |
|---|---|---|
| 初始 | 随机猜测,无推理 | 20% |
| 早期 RL | 简单模式,短链 | 45% |
| 中期 RL | 多步骤推理涌现 | 68% |
| 晚期 RL | 自我验证,回溯 | 82% |
| 收敛 | 复杂推理,高准确度 | 89% |
如需更多信息,请访问 Understand R1-Zero GitHub 仓库 和 DeepSeek R1 研究论文。
常见问题
Q:R1-Zero 与标准监督式微调的主要区别是什么? A:R1-Zero 使用纯 RL,无需人工标记的推理示例,允许出现 SFT 中不存在的涌现行为。
Q:这些发现可以应用于 DeepSeek 以外的模型吗? A:可以,RL 引发推理的原理似乎可以跨模型架构转移。
Q:重现实验需要多少计算资源? A:完整训练需要大量 GPU 资源(8+ 个 A100),但分析脚本可以在消费级硬件上运行。
Q:该项目是否包含训练好的模型权重? A:它提供分析工具和训练配置,而非预训练权重。
Q:RL 训练需要多长时间才能出现推理? A:推理行为通常在 1000-5000 个训练步骤后开始涌现。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!