Tags

GRPO

VeRL:字节跳动的 LLM 强化学习框架
AI

VeRL:字节跳动的 LLM 强化学习框架

2025-2026 年大型语言模型研究中最令人兴奋的前沿并不是让模型变得更大。而是通过强化学习让它们变得更聪明。DeepSeek-R1 证明了 RL 训练——特别是 GRPO(群组相对策略优化)——可以显著提升模型的推理能力,实现与更大模型相匹敌的链式思考推理、自我修正和结构化问题解决。字 …

Verifiers:用于训练 LLM 代理的模块化 RL 环境库
AI

Verifiers:用于训练 LLM 代理的模块化 RL 环境库

Verifiers 是由 PrimeIntellect-ai 开发的模块化 Python 库,提供一个全面框架,用于创建专为训练 LLM 代理而设计的强化学习环境。专为从事基于 RL 的 LLM 对齐与代理优化的研究人员与实务工作者设计,Verifiers 提供一个干净、可组合的 API, …

OpenManus-RL:LLM 代理的强化学习调校
AI

OpenManus-RL:LLM 代理的强化学习调校

OpenManus-RL 是一个位于强化学习与 LLM 代理系统交汇点的开源研究项目,由 Ulab-UIUC(伊利诺伊大学厄巴纳-香槟分校)与 MetaGPT 协作开发。该项目提供一个全面的框架,用于 LLM 基础代理的强化学习调校,实现了 GRPO(群组相对策略优化)、监督式微调 …

TAG
CATEGORIES