DeepSeek R1-Zero 在 2025 年 1 月发布时被广泛认为是一项突破。该模型证明了纯粹的强化学习——无需任何人类推理示例的监督式微调——就能产生高级思维链推理、自我修正,甚至令人惊讶的「啊哈时刻」,模型在对话中途独立发现了更好的推理策略。但问题在于:训练基础设施被认为需要大规模计算集群和数千万美元的预算。
Jiayi Pan 的 TinyZero 彻底打破了这一假设。
TinyZero 是 DeepSeek R1-Zero 方法的开源、最小化重现,在单个 GPU 上运行,云端计算成本不到 30 美元。使用 veRL 框架——一个用于语言模型的多功能强化学习库——TinyZero 将 PPO(近端策略优化)应用于小型基础模型,如 Qwen-2.5-1.5B-Instruct 和 Qwen-2.5-7B。训练任务看似简单:给定四个数字,模型必须使用算术运算(+, -, *, /)组合它们以达到目标值。然而从这个不起眼的起点出发,使 DeepSeek R1-Zero 闻名的相同涌现推理行为开始出现。
其影响深远。如果推理能力可以在 1.5B 参数模型中用极少的成本解锁,那么语言模型强化学习研究的门槛将降低几个数量级。这不仅仅是一次重现——这是对本十年最重要的 AI 技术之一的民主化。
TinyZero 是什么?为什么你应该关心?
| 方面 | TinyZero | DeepSeek R1-Zero |
|---|---|---|
| 基础模型 | Qwen-2.5-1.5B / 7B | DeepSeek-V3 (671B) |
| 训练框架 | veRL(开源) | 专有 |
| 训练成本 | 不到 30 美元 | 数百万美元 |
| GPU 需求 | 单个 GPU | 大型集群 |
| RL 算法 | PPO | GRPO |
| 训练任务 | 倒计时算术 | 多样化推理任务 |
| 涌现行为 | 自我验证、反思、「啊哈时刻」 | 自我验证、反思、「啊哈时刻」 |
TinyZero 展现哪些涌现行为?
| 行为 | Qwen-2.5-0.5B | Qwen-2.5-1.5B | Qwen-2.5-7B |
|---|---|---|---|
| 自我验证 | 罕见 | 频繁 | 一致 |
| 回溯 | 无 | 偶尔 | 频繁 |
| 延伸 CoT(>200 tokens) | 否 | 是 | 是 |
| 多策略探索 | 否 | 罕见 | 频繁 |
| 「啊哈时刻」重置 | 否 | 偶尔 | 是 |
| 训练成本(A100 80GB) | ~5 美元 | ~15 美元 | ~30 美元 |
架构
flowchart LR
A[基础模型<br/>Qwen-2.5] --> B[倒计时任务<br/>提示]
B --> C[模型生成<br/>含 CoT 的响应]
C --> D[奖励计算<br/>正确 = +1, 错误 = 0]
D --> E[PPO 更新<br/>通过 veRL]
E --> B运行成本
| 组件 | 1.5B 模型 | 7B 模型 |
|---|---|---|
| 云端 GPU(Lambda Labs A100) | ~$1.10/小时 | ~$1.10/小时 |
| 训练步数 | ~200 | ~300 |
| 训练时间 | ~6 小时 | ~24 小时 |
| 估计总计 | ~7 美元 | ~27 美元 |
常见问题
什么是 TinyZero? DeepSeek R1-Zero 强化学习方法的开源、极简重现。该项目展示涌现推理行为可以在小至 1.5B 参数的模型中出现,计算成本不到 30 美元。
如何重现 DeepSeek R1-Zero? 使用 veRL 框架对 Qwen-2.5 基础模型应用 PPO。通过 RL 训练,模型自然发现高级推理模式,无需监督式微调。
如何能以不到 30 美元重现? 使用小型基础模型在单个 GPU 上训练约 200-400 步,总计算成本在 15 到 30 美元之间。
展现哪些涌现行为? 自我验证、回溯与修正、反思、延伸思维链推理,以及「啊哈时刻」。
需要什么硬件? 推理需要至少 8GB VRAM 的 GPU。训练 1.5B 模型需要单个 A100 80GB 或 RTX 4090。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!