AI

TinyZero:用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理

TinyZero 是 DeepSeek R1-Zero 的最小化重现,使用强化学习和 veRL 框架,展示小型语言模型中的涌现推理能力。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
TinyZero:用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理

DeepSeek R1-Zero 在 2025 年 1 月发布时被广泛认为是一项突破。该模型证明了纯粹的强化学习——无需任何人类推理示例的监督式微调——就能产生高级思维链推理、自我修正,甚至令人惊讶的「啊哈时刻」,模型在对话中途独立发现了更好的推理策略。但问题在于:训练基础设施被认为需要大规模计算集群和数千万美元的预算。

Jiayi Pan 的 TinyZero 彻底打破了这一假设。

TinyZero 是 DeepSeek R1-Zero 方法的开源、最小化重现,在单个 GPU 上运行,云端计算成本不到 30 美元。使用 veRL 框架——一个用于语言模型的多功能强化学习库——TinyZero 将 PPO(近端策略优化)应用于小型基础模型,如 Qwen-2.5-1.5B-Instruct 和 Qwen-2.5-7B。训练任务看似简单:给定四个数字,模型必须使用算术运算(+, -, *, /)组合它们以达到目标值。然而从这个不起眼的起点出发,使 DeepSeek R1-Zero 闻名的相同涌现推理行为开始出现。

其影响深远。如果推理能力可以在 1.5B 参数模型中用极少的成本解锁,那么语言模型强化学习研究的门槛将降低几个数量级。这不仅仅是一次重现——这是对本十年最重要的 AI 技术之一的民主化。

TinyZero 是什么?为什么你应该关心?

方面TinyZeroDeepSeek R1-Zero
基础模型Qwen-2.5-1.5B / 7BDeepSeek-V3 (671B)
训练框架veRL(开源)专有
训练成本不到 30 美元数百万美元
GPU 需求单个 GPU大型集群
RL 算法PPOGRPO
训练任务倒计时算术多样化推理任务
涌现行为自我验证、反思、「啊哈时刻」自我验证、反思、「啊哈时刻」

TinyZero 展现哪些涌现行为?

行为Qwen-2.5-0.5BQwen-2.5-1.5BQwen-2.5-7B
自我验证罕见频繁一致
回溯偶尔频繁
延伸 CoT(>200 tokens)
多策略探索罕见频繁
「啊哈时刻」重置偶尔
训练成本(A100 80GB)~5 美元~15 美元~30 美元

架构

运行成本

组件1.5B 模型7B 模型
云端 GPU(Lambda Labs A100)~$1.10/小时~$1.10/小时
训练步数~200~300
训练时间~6 小时~24 小时
估计总计~7 美元~27 美元

常见问题

什么是 TinyZero? DeepSeek R1-Zero 强化学习方法的开源、极简重现。该项目展示涌现推理行为可以在小至 1.5B 参数的模型中出现,计算成本不到 30 美元。

如何重现 DeepSeek R1-Zero? 使用 veRL 框架对 Qwen-2.5 基础模型应用 PPO。通过 RL 训练,模型自然发现高级推理模式,无需监督式微调。

如何能以不到 30 美元重现? 使用小型基础模型在单个 GPU 上训练约 200-400 步,总计算成本在 15 到 30 美元之间。

展现哪些涌现行为? 自我验证、回溯与修正、反思、延伸思维链推理,以及「啊哈时刻」。

需要什么硬件? 推理需要至少 8GB VRAM 的 GPU。训练 1.5B 模型需要单个 A100 80GB 或 RTX 4090。

扩展阅读

TAG
CATEGORIES