強化學習

AI May 05, 2026

Understand R1-Zero：深入探索 DeepSeek R1 的強化學習

DeepSeek R1-Zero 代表了 AI 推理的一項突破，它證明了純強化學習（無需監督式微調）可以在語言模型中產生複雜的思維鏈推理。由 sail-sg（新加坡管理大學）開發的 Understand R1-Zero 專案，對其底層運作方式進行了全面分析。該專案對 R1-Zero 的訓 …

AI May 04, 2026

語言模型能夠透過強化學習——而無需人類示範——發展出複雜推理能力的這一發現，是 2024 年和 2025 年 AI 研究中最令人驚訝的結果之一。DeepSeek R1 表明，使用 RL 訓練的模型可以學會逐步思考，產生思維鏈推理，從而在數學、邏輯和程式設計任務上大幅提升表現。X-R1 是一 …

AI May 03, 2026

Verifiers 是由 PrimeIntellect-ai 開發的模組化 Python 庫，提供一個全面框架，用於建立專為訓練 LLM 代理而設計的強化學習環境。專為從事基於 RL 的 LLM 對齊與代理最佳化的研究人員與實務工作者設計，Verifiers 提供一個乾淨、可組合的 …

AI May 03, 2026

OpenManus-RL 是一個位於強化學習與 LLM 代理系統交會點的開源研究專案，由 Ulab-UIUC（伊利諾大學香檳分校）與 MetaGPT 協作開發。該專案提供一個全面的框架，用於 LLM 基礎代理的強化學習調校，實作了 GRPO（群組相對策略最佳化）、監督式微調 (SFT) 以 …

AI May 03, 2026

DeepSeek R1-Zero 在 2025 年 1 月發布時被廣泛認為是一項突破。該模型證明了純粹的強化學習——無需任何人類推理範例的監督式微調——就能產生高級思維鏈推理、自我修正，甚至令人驚訝的「啊哈時刻」，模型在對話中途獨立發現了更好的推理策略。但問題在於：訓練基礎設施被認為需要大 …