DeepSeek R1-Zero 代表了 AI 推理的一項突破,它證明了純強化學習(無需監督式微調)可以在語言模型中產生複雜的思維鏈推理。由 sail-sg(新加坡管理大學)開發的 Understand R1-Zero 專案,對其底層運作方式進行了全面分析。
該專案對 R1-Zero 的訓練方法進行了逆向工程,重現了關鍵實驗,並提供了推理能力如何在 RL 訓練期間湧現的可視化。它提供了關於獎勵塑造、策略最佳化動態以及探索在發現推理策略中關鍵作用的見解。
研究發現
| 發現 | 啟示 |
|---|---|
| 僅 RL 即可引發推理 | 思維鏈湧現無需監督資料 |
| 獎勵塑造至關重要 | 簡單的結果獎勵優於過程獎勵 |
| 探索驅動發現 | 隨機策略擾動啟用新推理路徑 |
| 自我驗證湧現 | 模型無需明確訓練即可學會檢查自己的工作 |
| 長度與準確度相關 | 更長的推理鏈產生更好的結果 |
訓練動態
flowchart LR
A[基礎模型] --> B[RL 訓練循環]
B --> C[生成推理]
C --> D[評估答案]
D --> E{獎勵}
E -->|正確| F[正向更新]
E -->|錯誤| G[負向更新]
F --> H[策略更新]
G --> H
H --> I{收斂?}
I -->|否| B
I -->|是| J[訓練後的 R1-Zero 模型]訓練循環非常簡潔優雅。模型生成推理鏈和答案,根據正確性接收獎勵信號,並透過強化學習更新其策略。經過數千次迭代,模型完全透過試錯發現有效的推理策略。
不同訓練階段的關鍵發現
| 訓練階段 | 模型行為 | 獎勵分數 |
|---|---|---|
| 初始 | 隨機猜測,無推理 | 20% |
| 早期 RL | 簡單模式,短鏈 | 45% |
| 中期 RL | 多步驟推理湧現 | 68% |
| 晚期 RL | 自我驗證,回溯 | 82% |
| 收斂 | 複雜推理,高準確度 | 89% |
如需更多資訊,請造訪 Understand R1-Zero GitHub 儲存庫 和 DeepSeek R1 研究論文。
常見問題
Q:R1-Zero 與標準監督式微調的主要區別是什麼? A:R1-Zero 使用純 RL,無需人工標記的推理範例,允許出現 SFT 中不存在的湧現行為。
Q:這些發現可以應用於 DeepSeek 以外的模型嗎? A:可以,RL 引發推理的原理似乎可以跨模型架構轉移。
Q:重現實驗需要多少計算資源? A:完整訓練需要大量 GPU 資源(8+ 個 A100),但分析腳本可以在消費級硬體上執行。
Q:該專案是否包含訓練好的模型權重? A:它提供分析工具和訓練配置,而非預訓練權重。
Q:RL 訓練需要多長時間才能出現推理? A:推理行為通常在 1000-5000 個訓練步驟後開始湧現。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!