GRPO

AI May 05, 2026

VeRL：字節跳動的 LLM 強化學習框架

2025-2026 年大型語言模型研究中最令人興奮的前沿並不是讓模型變得更大。而是透過強化學習讓它們變得更聰明。DeepSeek-R1 證明了 RL 訓練——特別是 GRPO（群組相對策略最佳化）——可以顯著提升模型的推理能力，實現與更大模型相匹敵的鏈式思考推理、自我修正和結構化問題解決。 …

AI May 03, 2026

Verifiers 是由 PrimeIntellect-ai 開發的模組化 Python 庫，提供一個全面框架，用於建立專為訓練 LLM 代理而設計的強化學習環境。專為從事基於 RL 的 LLM 對齊與代理最佳化的研究人員與實務工作者設計，Verifiers 提供一個乾淨、可組合的 …

AI May 03, 2026

OpenManus-RL 是一個位於強化學習與 LLM 代理系統交會點的開源研究專案，由 Ulab-UIUC（伊利諾大學香檳分校）與 MetaGPT 協作開發。該專案提供一個全面的框架，用於 LLM 基礎代理的強化學習調校，實作了 GRPO（群組相對策略最佳化）、監督式微調 (SFT) 以 …