AI

TinyZero:用不到 30 美元重現 DeepSeek R1-Zero 的強化學習推理

TinyZero 是 DeepSeek R1-Zero 的最小化重現,使用強化學習和 veRL 框架,展示小型語言模型中的湧現推理能力。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
TinyZero:用不到 30 美元重現 DeepSeek R1-Zero 的強化學習推理

DeepSeek R1-Zero 在 2025 年 1 月發布時被廣泛認為是一項突破。該模型證明了純粹的強化學習——無需任何人類推理範例的監督式微調——就能產生高級思維鏈推理、自我修正,甚至令人驚訝的「啊哈時刻」,模型在對話中途獨立發現了更好的推理策略。但問題在於:訓練基礎設施被認為需要大規模計算叢集和數千萬美元的預算。

Jiayi Pan 的 TinyZero 徹底打破了這個假設。

TinyZero 是 DeepSeek R1-Zero 方法的開源、最小化重現,在單一 GPU 上運行,雲端計算成本不到 30 美元。使用 veRL 框架——一個用於語言模型的多功能強化學習庫——TinyZero 將 PPO(近端策略優化)應用於小型基礎模型,如 Qwen-2.5-1.5B-Instruct 和 Qwen-2.5-7B。訓練任務看似簡單:給定四個數字,模型必須使用算術運算(+, -, *, /)組合它們以達到目標值。然而從這個不起眼的起點出發,使 DeepSeek R1-Zero 聞名的相同湧現推理行為開始出現。

其影響深遠。如果推理能力可以在 1.5B 參數模型中用極少的成本解鎖,那麼語言模型強化學習研究的門檻將降低幾個數量級。這不僅僅是一次重現——這是對本十年最重要的 AI 技術之一的民主化。

TinyZero 是什麼?為什麼你應該關心?

TinyZero 首先是一個研究重現。其主要目標是證明 DeepSeek R1-Zero 的關鍵發現——僅強化學習就能在語言模型中產生複雜推理——並不依賴於大規模模型或專有基礎設施。該專案透過提煉核心 RL 方法並將其應用於專注數學任務的較小模型來實現這一點。

面向TinyZeroDeepSeek R1-Zero
基礎模型Qwen-2.5-1.5B / 7BDeepSeek-V3 (671B)
訓練框架veRL(開源)專有
訓練成本不到 30 美元數百萬美元
GPU 需求單一 GPU大型叢集
RL 演算法PPOGRPO
訓練任務倒數計時算術多樣化推理任務
湧現行為自我驗證、反思、「啊哈時刻」自我驗證、反思、「啊哈時刻」

TinyZero 展現哪些湧現行為?

TinyZero 最迷人的面向是模型在沒有明確教導的情況下學會了什麼。在幾百個訓練步內,模型自然發展出:

  • 自我驗證:模型在確定最終答案前檢查自己的中間計算。
  • 回溯與修正:當模型偵測到推理中的錯誤時,它會明確標記錯誤並以修正後的方法重新開始。
  • 延伸推理鏈:回應長度從簡單的一行答案增加到跨越數百個 Token 的多步推理。
  • 反思性推理:模型評估自己的思考過程,出現「等等,讓我再檢查一次那個計算」這類陳述。
  • 策略性探索:模型在單一回應中嘗試多種方法,評估每種方法後選擇最佳前進路徑。
行為Qwen-2.5-0.5BQwen-2.5-1.5BQwen-2.5-7B
自我驗證罕見頻繁一致
回溯偶爾頻繁
延伸 CoT(>200 tokens)
多策略探索罕見頻繁
「啊哈時刻」重設偶爾
訓練成本(A100 80GB)~5 美元~15 美元~30 美元

TinyZero 的建構方式與教訓

執行 TinyZero 的成本?

元件1.5B 模型7B 模型
雲端 GPU(Lambda Labs A100)~$1.10/小時~$1.10/小時
訓練步數~200~300
訓練時間~6 小時~24 小時
估計總計~7 美元~27 美元

常見問題

什麼是 TinyZero? TinyZero 是 DeepSeek R1-Zero 強化學習方法的開源、極簡重現。該專案展示湧現推理行為可以在小至 1.5B 參數的模型中出現,當使用 RL 在倒數計時任務上訓練時,計算成本不到 30 美元。

TinyZero 如何重現 DeepSeek R1-Zero? TinyZero 使用 veRL 框架對 Qwen-2.5 基礎模型應用 PPO 強化學習。透過 RL 訓練,模型自然發現高級推理模式,無需任何監督式微調。

如何能以不到 30 美元重現 R1-Zero? 訓練運行使用小型基礎模型在單一 GPU 上訓練約 200-400 步。總計算成本在 15 到 30 美元之間。

TinyZero 展現哪些湧現行為? 自我驗證、偵測錯誤時回溯與修正、對中間結果的反思、延伸思維鏈推理,以及類似「啊哈時刻」的行為。

執行 TinyZero 需要什麼硬體? 推論需要至少 8GB VRAM 的任何現代 GPU。訓練 1.5B 模型需要單一 A100 80GB 或 RTX 4090。

延伸閱讀

TAG