"TinyZero 如何重现 DeepSeek R1-Zero？"

"TinyZero 使用 veRL 框架对 Qwen-2.5-1.5B-Instruct 和 7B 基础模型应用 PPO。模型在基于倒计时的数学推理任务上训练，必须使用算术运算组合四个数字以达到目标值。通过 RL 训练，模型自然发现高级推理模式，无需任何监督式微调或人工策划的推理数据。"

"如何能以不到 30 美元重现 R1-Zero？"

"训练运行使用小型基础模型（1.5B 或 7B 参数），在单个 GPU 上训练约 200-400 步。使用租用的云端实例搭配 NVIDIA A100 或 RTX 4090，总计算成本在 15 到 30 美元之间，视实例类型和训练时长而定。这与大型语言模型 RL 训练通常需要的数千或数百万美元形成鲜明对比。"

"运行 TinyZero 需要什么硬件？"

"推理（运行训练好的模型）需要至少 8GB VRAM 的任何现代 GPU。训练 1.5B 模型则需要单个 A100 80GB 或 RTX 4090（24GB）。完整的 RL 训练流水线可以在一个 GPU 上运行，让个别研究人员和学生都能使用。"

TinyZero：用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理

Q: "什么是 TinyZero？"

"TinyZero 是 DeepSeek R1-Zero 强化学习方法的开源、极简重现，用于训练语言模型进行推理。由研究员 Jiayi Pan 创建，该项目展示涌现推理行为——自我验证、反思和延伸思维链——可以在小至 1.5B 参数的模型中出现，当使用强化学习在倒计时任务上训练时，计算成本不到 30 美元。"

Q: "TinyZero 展现哪些涌现行为？"

"TinyZero 模型在没有明确编程的情况下发展出几种涌现推理行为：自我验证（模型检查自己的计算）、回溯与修正（检测到错误时）、对中间结果的反思、延伸思维链推理，以及类似「啊哈时刻」的行为，模型在回应中途突然改善了推理策略。"

TinyZero 是 DeepSeek R1-Zero 的最小化重现，使用强化学习和 veRL 框架，展示小型语言模型中的涌现推理能力。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 03, 2026 阅读 6 分钟

DeepSeek R1-Zero 在 2025 年 1 月发布时被广泛认为是一项突破。该模型证明了纯粹的强化学习——无需任何人类推理示例的监督式微调——就能产生高级思维链推理、自我修正，甚至令人惊讶的「啊哈时刻」，模型在对话中途独立发现了更好的推理策略。但问题在于：训练基础设施被认为需要大规模计算集群和数千万美元的预算。

Jiayi Pan 的 TinyZero 彻底打破了这一假设。

TinyZero 是 DeepSeek R1-Zero 方法的开源、最小化重现，在单个 GPU 上运行，云端计算成本不到 30 美元。使用 veRL 框架——一个用于语言模型的多功能强化学习库——TinyZero 将 PPO（近端策略优化）应用于小型基础模型，如 Qwen-2.5-1.5B-Instruct 和 Qwen-2.5-7B。训练任务看似简单：给定四个数字，模型必须使用算术运算（+, -, *, /）组合它们以达到目标值。然而从这个不起眼的起点出发，使 DeepSeek R1-Zero 闻名的相同涌现推理行为开始出现。

其影响深远。如果推理能力可以在 1.5B 参数模型中用极少的成本解锁，那么语言模型强化学习研究的门槛将降低几个数量级。这不仅仅是一次重现——这是对本十年最重要的 AI 技术之一的民主化。

TinyZero 是什么？为什么你应该关心？

方面	TinyZero	DeepSeek R1-Zero
基础模型	Qwen-2.5-1.5B / 7B	DeepSeek-V3 (671B)
训练框架	veRL（开源）	专有
训练成本	不到 30 美元	数百万美元
GPU 需求	单个 GPU	大型集群
RL 算法	PPO	GRPO
训练任务	倒计时算术	多样化推理任务
涌现行为	自我验证、反思、「啊哈时刻」	自我验证、反思、「啊哈时刻」

TinyZero 展现哪些涌现行为？

行为	Qwen-2.5-0.5B	Qwen-2.5-1.5B	Qwen-2.5-7B
自我验证	罕见	频繁	一致
回溯	无	偶尔	频繁
延伸 CoT（>200 tokens）	否	是	是
多策略探索	否	罕见	频繁
「啊哈时刻」重置	否	偶尔	是
训练成本（A100 80GB）	~5 美元	~15 美元	~30 美元

架构

flowchart LR
    A[基础模型<br/>Qwen-2.5] --> B[倒计时任务<br/>提示]
    B --> C[模型生成<br/>含 CoT 的响应]
    C --> D[奖励计算<br/>正确 = +1, 错误 = 0]
    D --> E[PPO 更新<br/>通过 veRL]
    E --> B

运行成本

组件	1.5B 模型	7B 模型
云端 GPU（Lambda Labs A100）	~$1.10/小时	~$1.10/小时
训练步数	~200	~300
训练时间	~6 小时	~24 小时
估计总计	~7 美元	~27 美元

常见问题

什么是 TinyZero？ DeepSeek R1-Zero 强化学习方法的开源、极简重现。该项目展示涌现推理行为可以在小至 1.5B 参数的模型中出现，计算成本不到 30 美元。

如何重现 DeepSeek R1-Zero？ 使用 veRL 框架对 Qwen-2.5 基础模型应用 PPO。通过 RL 训练，模型自然发现高级推理模式，无需监督式微调。

如何能以不到 30 美元重现？ 使用小型基础模型在单个 GPU 上训练约 200-400 步，总计算成本在 15 到 30 美元之间。

展现哪些涌现行为？ 自我验证、回溯与修正、反思、延伸思维链推理，以及「啊哈时刻」。

需要什么硬件？ 推理需要至少 8GB VRAM 的 GPU。训练 1.5B 模型需要单个 A100 80GB 或 RTX 4090。

TinyZero：用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理

TinyZero 是什么？为什么你应该关心？

TinyZero 展现哪些涌现行为？

架构

运行成本

常见问题

扩展阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

TinyZero：用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理

TinyZero 是什么？为什么你应该关心？

TinyZero 展现哪些涌现行为？

架构

运行成本

常见问题

扩展阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险