語言模型能夠透過強化學習——而無需人類示範——發展出複雜推理能力的這一發現,是 2024 年和 2025 年 AI 研究中最令人驚訝的結果之一。DeepSeek R1 表明,使用 RL 訓練的模型可以學會逐步思考,產生思維鏈推理,從而在數學、邏輯和程式設計任務上大幅提升表現。X-R1 是一個探索這些技術的開源專案,旨在重現、理解和擴展透過 RL 進行推理的範式。
由研究員 dhcode-cpp 開發,X-R1 實作了 DeepSeek R1 及相關論文的關鍵技術,使其易於在開源模型上進行實驗。該專案提供了訓練腳本、獎勵函數實作和評估管道,研究員可以用來調查 RL 如何塑造語言模型中的推理行為。
X-R1 的重要性超越了重現現有結果。透過提供開源實作,它使更廣泛的研究社群能夠探究 RL 驅動推理的機制,實驗不同的獎勵公式,並探索推理如何在不同的模型架構和規模上進行泛化。
強化學習如何教導推理?
X-R1 的訓練管道遵循一個專為推理任務設計的結構化強化學習循環。
graph TD
A[基礎語言模型] --> B[生成推理步驟\n思維鏈]
B --> C[產生最終答案]
C --> D{獎勵評估}
D -->|正確答案 + 良好推理| E[正向獎勵]
D -->|錯誤答案| F[負向獎勵]
D -->|正確但無推理| G[中性獎勵]
E --> H[策略梯度更新\nPPO / GRPO]
F --> H
G --> H
H --> I[更新後的模型]
I --> J{收斂?}
J -->|否| B
J -->|是| K[訓練後的推理模型]
獎勵函數是關鍵的設計選擇。簡單的答案正確性獎勵可能導致獎勵駭客行為,而過於複雜的獎勵函數可能限制模型的學習。X-R1 提供了幾個平衡這些問題的獎勵函數範本。
X-R1 實作了哪些訓練技術?
X-R1 實作了多種 RL 演算法和訓練策略以改善推理。
| 技術 | 描述 | 靈感來源 |
|---|---|---|
| PPO(近端策略最佳化) | 策略更新的標準 RL 演算法 | OpenAI |
| GRPO(群組相對策略最佳化) | 使用基於群組的優勢估計 | DeepSeek R1 |
| 結果獎勵建模 | 基於最終答案正確性的獎勵 | DeepSeek R1 |
| 過程獎勵建模 | 基於中間推理步驟的獎勵 | Math-Shepherd |
| 拒絕取樣 | 生成多次嘗試,在成功案例上訓練 | STaR(自學推理器) |
| 課程訓練 | 訓練中逐步增加任務難度 | 教育理論 |
GRPO 是 X-R1 的主要演算法,因為它透過在生成的回應群組內估計優勢來減少對單獨價值網路的需求。這使訓練更簡單、更穩定。
X-R1 在推理基準上的表現如何?
該專案報告了 RL 訓練後在標準推理評估上的結果。
| 基準 | 基礎模型 | X-R1 訓練後 | 改進 |
|---|---|---|---|
| GSM8K(數學) | 45.2% | 72.8% | +27.6% |
| MATH | 22.1% | 45.3% | +23.2% |
| HumanEval(程式碼) | 38.5% | 56.2% | +17.7% |
| MBPP(程式碼) | 52.1% | 66.4% | +14.3% |
| MMLU(通用) | 61.3% | 68.9% | +7.6% |
| BBH(BIG-Bench Hard) | 48.7% | 59.1% | +10.4% |
最大的改進出現在數學推理任務上,這與 DeepSeek R1 的發現一致。通用知識(MMLU)的提升較為溫和,這表明 RL 推理訓練主要改善模型的推理能力而非事實知識。
有哪些開放的未解決研究問題?
X-R1 的開發凸顯了幾個關於 RL 驅動推理的未解決問題。
| 問題 | 當前理解 | 研究方向 |
|---|---|---|
| RL 為何改善推理? | 尚未完全理解 | 機制可解釋性研究 |
| 推理是否泛化? | 部分——在類似訓練的任務上最佳 | 跨領域遷移評估 |
| 最佳獎勵設計? | 答案正確性有效,過程獎勵更有幫助 | 自動獎勵發現 |
| 規模效應? | 較大的模型從 RL 中受益更多 | 規模法則實驗 |
| 推理崩潰? | 沒有持續 RL,模型可能忘記推理 | 正則化和穩定性技術 |
推理是否泛化的問題對於實際應用尤其重要。如果 RL 訓練的推理僅在類似於訓練分布的任務上有幫助,其價值有限。早期證據顯示部分泛化,模型在相關但未見過的任務類型上表現出改進的推理。
常見問題
什麼是 X-R1? X-R1 是一個開源研究專案,探索強化學習如何改善語言模型的推理能力。它受到 DeepSeek R1 的啟發,旨在重現和擴展使模型能夠透過 RL 訓練發展思維鏈推理的技術。
X-R1 如何使用強化學習進行推理? X-R1 應用強化學習來訓練語言模型產生更好的推理鏈。模型不是在預先編寫的範例上訓練,而是生成推理步驟、解決問題,並根據答案正確性獲得獎勵。經過多次迭代,模型學會產生更有效的推理。
X-R1 支援哪些模型? X-R1 支援開源基礎模型,包括 Qwen、LLaMA 和 Mistral 系列。該框架是模型不可知的,可以應用於任何支援微調的基於 Transformer 的語言模型。該專案為 1.5B 到 70B 參數的常見模型大小提供配置範本。
什麼是 DeepSeek R1 的啟發? DeepSeek R1 證明了僅靠強化學習——無需在推理範例上進行監督微調——就能在數學推理和程式碼生成方面產生顯著改進。X-R1 旨在在開源模型上重現和擴展這些發現。
X-R1 可以用於改善特定任務的模型嗎? 可以,X-R1 的 RL 訓練可以透過設計適當的獎勵函數來針對特定領域。例如,透過在訓練期間提供任務特定的獎勵信號,可以訓練模型改進數學證明、程式碼生成、科學推理或邏輯演繹。
延伸閱讀
- X-R1 GitHub 倉庫 – 原始碼、訓練腳本和模型權重
- DeepSeek R1 論文 – 基於 RL 的推理改進的基礎研究
- STaR:自學推理器論文 – 透過自生成範例引導推理的相關工作
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!