OpenManus-RL 是一个位于强化学习与 LLM 代理系统交汇点的开源研究项目,由 Ulab-UIUC(伊利诺伊大学厄巴纳-香槟分校)与 MetaGPT 协作开发。该项目提供一个全面的框架,用于 LLM 基础代理的强化学习调校,实现了 GRPO(群组相对策略优化)、监督式微调 (SFT) 以及专为代理任务设计的先进展开策略。
随着 LLM 代理在复杂多步骤推理与工具使用方面日益强大,针对性强化学习优化的需求也急剧增长。OpenManus-RL 通过提供一个模块化、可重现的管线来满足此需求,用于在代理特定任务上训练代理,并内置支持多样化环境,包括软件工程(SWE-Bench)、网页导航(WebArena)与一般工具使用。
什么是 OpenManus-RL?为什么它很重要?
OpenManus-RL 是一个训练框架,应用强化学习算法来优化 LLM 代理以达到特定行为目标。OpenManus-RL 不单纯依赖静态数据集的监督式微调,而是使用来自环境的奖励信号反复改善代理表现。这种方法已被证明对于在复杂代理基准测试中达到最先进成果至关重要,而单纯的模仿学习在这些测试中表现不佳。
支持的训练方法
| 方法 | 说明 | 使用案例 |
|---|---|---|
| GRPO | 群组相对策略优化 | 多轨迹奖励比较 |
| SFT | 监督式微调 | 从示范中进行初始行为克隆 |
| PPO | 近端策略优化 | 单轨迹奖励优化 |
| 拒绝采样 | 筛选最佳轨迹进行训练 | 品质过滤 |
| 迭代 GRPO | 多轮 GRPO 搭配演化策略 | 持续改进 |
GRPO 如何用于代理训练?
GRPO(群组相对策略优化)是 OpenManus-RL 中的核心训练算法。与需要价值函数估计优势的标准 RL 方法不同,GRPO 从策略中采样多条轨迹,使用环境的奖励函数评估它们,并计算相对于群组的优势。这种群组相对方法特别适合代理任务,因为奖励信号虽然稀疏,但比较性轨迹提供了丰富的学习信号。
flowchart TD
A[基础策略模型] --> B[采样 N 条轨迹]
B --> C[轨迹 1]
B --> D[轨迹 2]
B --> E[轨迹 N...]
C --> F[环境奖励]
D --> F
E --> F
F --> G[计算群组优势]
G --> H[排名轨迹]
H --> I[通过 GRPO 更新策略]
I --> B
H --> J[最佳轨迹]
J --> K[SFT 数据集]
K --> L[监督式微调]
L --> A基准测试结果
OpenManus-RL 在多个代理基准测试中展现了相较基础模型的显著改进。
| 基准测试 | 基础模型 | 基础 + SFT | 基础 + SFT + GRPO | 改进 |
|---|---|---|---|---|
| SWE-Bench Lite | 18.5% | 30.2% | 38.7% | +20.2% |
| WebArena | 14.2% | 22.8% | 29.5% | +15.3% |
| AgentBench | 35.1% | 48.3% | 56.2% | +21.1% |
| ToolBench | 52.4% | 63.1% | 71.8% | +19.4% |
训练使用哪些数据集?
OpenManus-RL 提供来自代理轨迹的精选训练数据集。训练数据管线包括从多个代理环境收集轨迹、使用自动化指标与 LLM 作为评审的奖励标注、品质过滤以移除低品质或失败轨迹,以及通过轨迹扰动进行数据扩充。该项目还支持集成用户提供的任务数据集以进行领域特定调校。
架构概览
系统架构包含一个训练循环,将 LLM 策略与代理环境连接起来。展开引擎管理并行环境实例以高效收集轨迹,而奖励模型提供反馈信号。RL 训练器实现 GRPO 与 PPO 算法,支持跨多个 GPU 的分布式训练。
sequenceDiagram
participant Policy as LLM 策略
participant Rollout as 展开引擎
participant Env as 代理环境
participant Reward as 奖励模型
participant Trainer as RL 训练器
loop 训练步骤
Policy->>Rollout: 产生动作分布
Rollout->>Env: 启动 N 个并行实例
Env-->>Policy: 状态观察
Policy->>Env: 动作(代码、浏览等)
Env-->>Rollout: 任务完成信号
Rollout->>Reward: 提交轨迹
Reward-->>Rollout: 奖励分数
Rollout-->>Trainer: 批次轨迹 + 奖励
Trainer->>Trainer: 计算 GRPO 损失
Trainer->>Policy: 更新权重
endOpenManus-RL 与其他 RL 框架相比如何?
OpenManus-RL 与一般 RL 框架(如 RLHF,专注于偏好调校)以及代理特定框架(如 EvoPrompt,专注于提示优化)不同,它针对 LLM 代理训练的独特需求。关键差异包括原生支持轨迹级别奖励(而非 token 级别)、开箱即用集成热门代理环境,以及处理代理任务中常见稀疏奖励结构的群组相对优势计算。
这个项目背后的合作关系是什么?
OpenManus-RL 是 Ulab-UIUC(由 UIUC 的计曦教授领导)与 MetaGPT 团队的联合努力。这种学术与产业合作将 UIUC 在强化学习与语言代理研究方面的专业知识,与 MetaGPT 在构建生产级代理系统方面的实践经验结合。该项目已获得来自多个机构研究人员的贡献,并随着代理 RL 领域的快速发展而不断演进。
常见问题
什么是 OpenManus-RL? 它是一个用于 LLM 代理强化学习调校的开源框架,使用 GRPO、SFT 等方法优化代理在软件工程与网页导航等任务上的表现。
它支持哪些训练方法? GRPO(群组相对策略优化)、SFT、PPO、拒绝采样与迭代 GRPO 以持续改进。
在哪些基准测试上进行过测试? SWE-Bench、WebArena、AgentBench 与 ToolBench,相较基础模型改进 15-20%。
使用什么数据集? 来自代理环境的精选轨迹,搭配自动化与 LLM 作为评审的奖励标注,加上支持用户提供的任务数据集。
谁在开发 OpenManus-RL? Ulab-UIUC(伊利诺伊大学厄巴纳-香槟分校)与 MetaGPT 的合作。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!