TinyZero：用不到 30 美元重現 DeepSeek R1-Zero 的強化學習推理

Q: "什麼是 TinyZero？"

"TinyZero 是 DeepSeek R1-Zero 強化學習方法的開源、極簡重現，用於訓練語言模型進行推理。由研究員 Jiayi Pan 建立，該專案展示湧現推理行為——自我驗證、反思和延伸思維鏈——可以在小至 1.5B 參數的模型中出現，當使用強化學習在倒數計時任務上訓練時，計算成本不到 30 美元。"

Q: "TinyZero 如何重現 DeepSeek R1-Zero？"

"TinyZero 使用 veRL 框架對 Qwen-2.5-1.5B-Instruct 和 7B 基礎模型應用 PPO。模型在基於倒數計時的數學推理任務上訓練，必須使用算術運算組合四個數字以達到目標值。透過 RL 訓練，模型自然發現高級推理模式，無需任何監督式微調或人工策劃的推理資料。"

Q: "如何能以不到 30 美元重現 R1-Zero？"

"訓練運行使用小型基礎模型（1.5B 或 7B 參數），在單一 GPU 上訓練約 200-400 步。使用租用的雲端實例搭配 NVIDIA A100 或 RTX 4090，總計算成本在 15 到 30 美元之間，視實例類型和訓練時長而定。這與大型語言模型 RL 訓練通常需要的數千或數百萬美元形成鮮明對比。"

Q: "TinyZero 展現哪些湧現行為？"

"TinyZero 模型在沒有明確程式設計的情況下發展出幾種湧現推理行為：自我驗證（模型檢查自己的計算）、回溯與修正（偵測到錯誤時）、對中間結果的反思、延伸思維鏈推理，以及類似「啊哈時刻」的行為，模型在回應中途突然改善了推理策略。"

Q: "執行 TinyZero 需要什麼硬體？"

"推論（執行訓練好的模型）需要至少 8GB VRAM 的任何現代 GPU。訓練 1.5B 模型則需要單一 A100 80GB 或 RTX 4090（24GB）。完整的 RL 訓練管線可以在一個 GPU 上運行，讓個別研究人員和學生都能使用。"

TinyZero 是 DeepSeek R1-Zero 的最小化重現，使用強化學習和 veRL 框架，展示小型語言模型中的湧現推理能力。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 03, 2026 閱讀 8 分鐘

DeepSeek R1-Zero 在 2025 年 1 月發布時被廣泛認為是一項突破。該模型證明了純粹的強化學習——無需任何人類推理範例的監督式微調——就能產生高級思維鏈推理、自我修正，甚至令人驚訝的「啊哈時刻」，模型在對話中途獨立發現了更好的推理策略。但問題在於：訓練基礎設施被認為需要大規模計算叢集和數千萬美元的預算。

Jiayi Pan 的 TinyZero 徹底打破了這個假設。

TinyZero 是 DeepSeek R1-Zero 方法的開源、最小化重現，在單一 GPU 上運行，雲端計算成本不到 30 美元。使用 veRL 框架——一個用於語言模型的多功能強化學習庫——TinyZero 將 PPO（近端策略優化）應用於小型基礎模型，如 Qwen-2.5-1.5B-Instruct 和 Qwen-2.5-7B。訓練任務看似簡單：給定四個數字，模型必須使用算術運算（+, -, *, /）組合它們以達到目標值。然而從這個不起眼的起點出發，使 DeepSeek R1-Zero 聞名的相同湧現推理行為開始出現。

其影響深遠。如果推理能力可以在 1.5B 參數模型中用極少的成本解鎖，那麼語言模型強化學習研究的門檻將降低幾個數量級。這不僅僅是一次重現——這是對本十年最重要的 AI 技術之一的民主化。

TinyZero 是什麼？為什麼你應該關心？

TinyZero 首先是一個研究重現。其主要目標是證明 DeepSeek R1-Zero 的關鍵發現——僅強化學習就能在語言模型中產生複雜推理——並不依賴於大規模模型或專有基礎設施。該專案透過提煉核心 RL 方法並將其應用於專注數學任務的較小模型來實現這一點。

面向	TinyZero	DeepSeek R1-Zero
基礎模型	Qwen-2.5-1.5B / 7B	DeepSeek-V3 (671B)
訓練框架	veRL（開源）	專有
訓練成本	不到 30 美元	數百萬美元
GPU 需求	單一 GPU	大型叢集
RL 演算法	PPO	GRPO
訓練任務	倒數計時算術	多樣化推理任務
湧現行為	自我驗證、反思、「啊哈時刻」	自我驗證、反思、「啊哈時刻」

TinyZero 展現哪些湧現行為？

TinyZero 最迷人的面向是模型在沒有明確教導的情況下學會了什麼。在幾百個訓練步內，模型自然發展出：

自我驗證：模型在確定最終答案前檢查自己的中間計算。
回溯與修正：當模型偵測到推理中的錯誤時，它會明確標記錯誤並以修正後的方法重新開始。
延伸推理鏈：回應長度從簡單的一行答案增加到跨越數百個 Token 的多步推理。
反思性推理：模型評估自己的思考過程，出現「等等，讓我再檢查一次那個計算」這類陳述。
策略性探索：模型在單一回應中嘗試多種方法，評估每種方法後選擇最佳前進路徑。

行為	Qwen-2.5-0.5B	Qwen-2.5-1.5B	Qwen-2.5-7B
自我驗證	罕見	頻繁	一致
回溯	無	偶爾	頻繁
延伸 CoT（>200 tokens）	否	是	是
多策略探索	否	罕見	頻繁
「啊哈時刻」重設	否	偶爾	是
訓練成本（A100 80GB）	~5 美元	~15 美元	~30 美元

TinyZero 的建構方式與教訓

flowchart LR
    A[基礎模型<br/>Qwen-2.5] --> B[倒數計時任務<br/>提示]
    B --> C[模型生成<br/>含 CoT 的回應]
    C --> D[獎勵計算<br/>正確 = +1, 錯誤 = 0]
    D --> E[PPO 更新<br/>透過 veRL]
    E --> B

執行 TinyZero 的成本？

元件	1.5B 模型	7B 模型
雲端 GPU（Lambda Labs A100）	~$1.10/小時	~$1.10/小時
訓練步數	~200	~300
訓練時間	~6 小時	~24 小時
估計總計	~7 美元	~27 美元

常見問題

什麼是 TinyZero？ TinyZero 是 DeepSeek R1-Zero 強化學習方法的開源、極簡重現。該專案展示湧現推理行為可以在小至 1.5B 參數的模型中出現，當使用 RL 在倒數計時任務上訓練時，計算成本不到 30 美元。

TinyZero 如何重現 DeepSeek R1-Zero？ TinyZero 使用 veRL 框架對 Qwen-2.5 基礎模型應用 PPO 強化學習。透過 RL 訓練，模型自然發現高級推理模式，無需任何監督式微調。

如何能以不到 30 美元重現 R1-Zero？ 訓練運行使用小型基礎模型在單一 GPU 上訓練約 200-400 步。總計算成本在 15 到 30 美元之間。

TinyZero 展現哪些湧現行為？ 自我驗證、偵測錯誤時回溯與修正、對中間結果的反思、延伸思維鏈推理，以及類似「啊哈時刻」的行為。

執行 TinyZero 需要什麼硬體？ 推論需要至少 8GB VRAM 的任何現代 GPU。訓練 1.5B 模型需要單一 A100 80GB 或 RTX 4090。

TinyZero：用不到 30 美元重現 DeepSeek R1-Zero 的強化學習推理

TinyZero 是什麼？為什麼你應該關心？

TinyZero 展現哪些湧現行為？

TinyZero 的建構方式與教訓

執行 TinyZero 的成本？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

TinyZero：用不到 30 美元重現 DeepSeek R1-Zero 的強化學習推理

TinyZero 是什麼？為什麼你應該關心？

TinyZero 展現哪些湧現行為？

TinyZero 的建構方式與教訓

執行 TinyZero 的成本？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲 凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險