DeepSeek R1-Zero 在 2025 年 1 月發布時被廣泛認為是一項突破。該模型證明了純粹的強化學習——無需任何人類推理範例的監督式微調——就能產生高級思維鏈推理、自我修正,甚至令人驚訝的「啊哈時刻」,模型在對話中途獨立發現了更好的推理策略。但問題在於:訓練基礎設施被認為需要大規模計算叢集和數千萬美元的預算。
Jiayi Pan 的 TinyZero 徹底打破了這個假設。
TinyZero 是 DeepSeek R1-Zero 方法的開源、最小化重現,在單一 GPU 上運行,雲端計算成本不到 30 美元。使用 veRL 框架——一個用於語言模型的多功能強化學習庫——TinyZero 將 PPO(近端策略優化)應用於小型基礎模型,如 Qwen-2.5-1.5B-Instruct 和 Qwen-2.5-7B。訓練任務看似簡單:給定四個數字,模型必須使用算術運算(+, -, *, /)組合它們以達到目標值。然而從這個不起眼的起點出發,使 DeepSeek R1-Zero 聞名的相同湧現推理行為開始出現。
其影響深遠。如果推理能力可以在 1.5B 參數模型中用極少的成本解鎖,那麼語言模型強化學習研究的門檻將降低幾個數量級。這不僅僅是一次重現——這是對本十年最重要的 AI 技術之一的民主化。
TinyZero 是什麼?為什麼你應該關心?
TinyZero 首先是一個研究重現。其主要目標是證明 DeepSeek R1-Zero 的關鍵發現——僅強化學習就能在語言模型中產生複雜推理——並不依賴於大規模模型或專有基礎設施。該專案透過提煉核心 RL 方法並將其應用於專注數學任務的較小模型來實現這一點。
| 面向 | TinyZero | DeepSeek R1-Zero |
|---|---|---|
| 基礎模型 | Qwen-2.5-1.5B / 7B | DeepSeek-V3 (671B) |
| 訓練框架 | veRL(開源) | 專有 |
| 訓練成本 | 不到 30 美元 | 數百萬美元 |
| GPU 需求 | 單一 GPU | 大型叢集 |
| RL 演算法 | PPO | GRPO |
| 訓練任務 | 倒數計時算術 | 多樣化推理任務 |
| 湧現行為 | 自我驗證、反思、「啊哈時刻」 | 自我驗證、反思、「啊哈時刻」 |
TinyZero 展現哪些湧現行為?
TinyZero 最迷人的面向是模型在沒有明確教導的情況下學會了什麼。在幾百個訓練步內,模型自然發展出:
- 自我驗證:模型在確定最終答案前檢查自己的中間計算。
- 回溯與修正:當模型偵測到推理中的錯誤時,它會明確標記錯誤並以修正後的方法重新開始。
- 延伸推理鏈:回應長度從簡單的一行答案增加到跨越數百個 Token 的多步推理。
- 反思性推理:模型評估自己的思考過程,出現「等等,讓我再檢查一次那個計算」這類陳述。
- 策略性探索:模型在單一回應中嘗試多種方法,評估每種方法後選擇最佳前進路徑。
| 行為 | Qwen-2.5-0.5B | Qwen-2.5-1.5B | Qwen-2.5-7B |
|---|---|---|---|
| 自我驗證 | 罕見 | 頻繁 | 一致 |
| 回溯 | 無 | 偶爾 | 頻繁 |
| 延伸 CoT(>200 tokens) | 否 | 是 | 是 |
| 多策略探索 | 否 | 罕見 | 頻繁 |
| 「啊哈時刻」重設 | 否 | 偶爾 | 是 |
| 訓練成本(A100 80GB) | ~5 美元 | ~15 美元 | ~30 美元 |
TinyZero 的建構方式與教訓
flowchart LR
A[基礎模型<br/>Qwen-2.5] --> B[倒數計時任務<br/>提示]
B --> C[模型生成<br/>含 CoT 的回應]
C --> D[獎勵計算<br/>正確 = +1, 錯誤 = 0]
D --> E[PPO 更新<br/>透過 veRL]
E --> B執行 TinyZero 的成本?
| 元件 | 1.5B 模型 | 7B 模型 |
|---|---|---|
| 雲端 GPU(Lambda Labs A100) | ~$1.10/小時 | ~$1.10/小時 |
| 訓練步數 | ~200 | ~300 |
| 訓練時間 | ~6 小時 | ~24 小時 |
| 估計總計 | ~7 美元 | ~27 美元 |
常見問題
什麼是 TinyZero? TinyZero 是 DeepSeek R1-Zero 強化學習方法的開源、極簡重現。該專案展示湧現推理行為可以在小至 1.5B 參數的模型中出現,當使用 RL 在倒數計時任務上訓練時,計算成本不到 30 美元。
TinyZero 如何重現 DeepSeek R1-Zero? TinyZero 使用 veRL 框架對 Qwen-2.5 基礎模型應用 PPO 強化學習。透過 RL 訓練,模型自然發現高級推理模式,無需任何監督式微調。
如何能以不到 30 美元重現 R1-Zero? 訓練運行使用小型基礎模型在單一 GPU 上訓練約 200-400 步。總計算成本在 15 到 30 美元之間。
TinyZero 展現哪些湧現行為? 自我驗證、偵測錯誤時回溯與修正、對中間結果的反思、延伸思維鏈推理,以及類似「啊哈時刻」的行為。
執行 TinyZero 需要什麼硬體? 推論需要至少 8GB VRAM 的任何現代 GPU。訓練 1.5B 模型需要單一 A100 80GB 或 RTX 4090。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!