OpenManus-RL：LLM 代理的强化学习调校

OpenManus-RL 是由 Ulab-UIUC 与 MetaGPT 开发的开源项目，使用 GRPO、SFT 与先进展开策略进行 LLM 代理的强化学习调校。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 03, 2026 阅读 9 分钟

OpenManus-RL 是一个位于强化学习与 LLM 代理系统交汇点的开源研究项目，由 Ulab-UIUC（伊利诺伊大学厄巴纳-香槟分校）与 MetaGPT 协作开发。该项目提供一个全面的框架，用于 LLM 基础代理的强化学习调校，实现了 GRPO（群组相对策略优化）、监督式微调 (SFT) 以及专为代理任务设计的先进展开策略。

随着 LLM 代理在复杂多步骤推理与工具使用方面日益强大，针对性强化学习优化的需求也急剧增长。OpenManus-RL 通过提供一个模块化、可重现的管线来满足此需求，用于在代理特定任务上训练代理，并内置支持多样化环境，包括软件工程（SWE-Bench）、网页导航（WebArena）与一般工具使用。

什么是 OpenManus-RL？为什么它很重要？

OpenManus-RL 是一个训练框架，应用强化学习算法来优化 LLM 代理以达到特定行为目标。OpenManus-RL 不单纯依赖静态数据集的监督式微调，而是使用来自环境的奖励信号反复改善代理表现。这种方法已被证明对于在复杂代理基准测试中达到最先进成果至关重要，而单纯的模仿学习在这些测试中表现不佳。

支持的训练方法

方法	说明	使用案例
GRPO	群组相对策略优化	多轨迹奖励比较
SFT	监督式微调	从示范中进行初始行为克隆
PPO	近端策略优化	单轨迹奖励优化
拒绝采样	筛选最佳轨迹进行训练	品质过滤
迭代 GRPO	多轮 GRPO 搭配演化策略	持续改进

GRPO 如何用于代理训练？

GRPO（群组相对策略优化）是 OpenManus-RL 中的核心训练算法。与需要价值函数估计优势的标准 RL 方法不同，GRPO 从策略中采样多条轨迹，使用环境的奖励函数评估它们，并计算相对于群组的优势。这种群组相对方法特别适合代理任务，因为奖励信号虽然稀疏，但比较性轨迹提供了丰富的学习信号。

flowchart TD
    A[基础策略模型] --> B[采样 N 条轨迹]
    B --> C[轨迹 1]
    B --> D[轨迹 2]
    B --> E[轨迹 N...]
    C --> F[环境奖励]
    D --> F
    E --> F
    F --> G[计算群组优势]
    G --> H[排名轨迹]
    H --> I[通过 GRPO 更新策略]
    I --> B
    H --> J[最佳轨迹]
    J --> K[SFT 数据集]
    K --> L[监督式微调]
    L --> A

基准测试结果

OpenManus-RL 在多个代理基准测试中展现了相较基础模型的显著改进。

基准测试	基础模型	基础 + SFT	基础 + SFT + GRPO	改进
SWE-Bench Lite	18.5%	30.2%	38.7%	+20.2%
WebArena	14.2%	22.8%	29.5%	+15.3%
AgentBench	35.1%	48.3%	56.2%	+21.1%
ToolBench	52.4%	63.1%	71.8%	+19.4%

训练使用哪些数据集？

OpenManus-RL 提供来自代理轨迹的精选训练数据集。训练数据管线包括从多个代理环境收集轨迹、使用自动化指标与 LLM 作为评审的奖励标注、品质过滤以移除低品质或失败轨迹，以及通过轨迹扰动进行数据扩充。该项目还支持集成用户提供的任务数据集以进行领域特定调校。

架构概览

系统架构包含一个训练循环，将 LLM 策略与代理环境连接起来。展开引擎管理并行环境实例以高效收集轨迹，而奖励模型提供反馈信号。RL 训练器实现 GRPO 与 PPO 算法，支持跨多个 GPU 的分布式训练。

sequenceDiagram
    participant Policy as LLM 策略
    participant Rollout as 展开引擎
    participant Env as 代理环境
    participant Reward as 奖励模型
    participant Trainer as RL 训练器

    loop 训练步骤
        Policy->>Rollout: 产生动作分布
        Rollout->>Env: 启动 N 个并行实例
        Env-->>Policy: 状态观察
        Policy->>Env: 动作（代码、浏览等）
        Env-->>Rollout: 任务完成信号
        Rollout->>Reward: 提交轨迹
        Reward-->>Rollout: 奖励分数
        Rollout-->>Trainer: 批次轨迹 + 奖励
        Trainer->>Trainer: 计算 GRPO 损失
        Trainer->>Policy: 更新权重
    end

OpenManus-RL 与其他 RL 框架相比如何？

OpenManus-RL 与一般 RL 框架（如 RLHF，专注于偏好调校）以及代理特定框架（如 EvoPrompt，专注于提示优化）不同，它针对 LLM 代理训练的独特需求。关键差异包括原生支持轨迹级别奖励（而非 token 级别）、开箱即用集成热门代理环境，以及处理代理任务中常见稀疏奖励结构的群组相对优势计算。

这个项目背后的合作关系是什么？

OpenManus-RL 是 Ulab-UIUC（由 UIUC 的计曦教授领导）与 MetaGPT 团队的联合努力。这种学术与产业合作将 UIUC 在强化学习与语言代理研究方面的专业知识，与 MetaGPT 在构建生产级代理系统方面的实践经验结合。该项目已获得来自多个机构研究人员的贡献，并随着代理 RL 领域的快速发展而不断演进。

常见问题

什么是 OpenManus-RL？ 它是一个用于 LLM 代理强化学习调校的开源框架，使用 GRPO、SFT 等方法优化代理在软件工程与网页导航等任务上的表现。

它支持哪些训练方法？ GRPO（群组相对策略优化）、SFT、PPO、拒绝采样与迭代 GRPO 以持续改进。

在哪些基准测试上进行过测试？ SWE-Bench、WebArena、AgentBench 与 ToolBench，相较基础模型改进 15-20%。

使用什么数据集？ 来自代理环境的精选轨迹，搭配自动化与 LLM 作为评审的奖励标注，加上支持用户提供的任务数据集。

谁在开发 OpenManus-RL？ Ulab-UIUC（伊利诺伊大学厄巴纳-香槟分校）与 MetaGPT 的合作。

OpenManus-RL：LLM 代理的强化学习调校

什么是 OpenManus-RL？为什么它很重要？

支持的训练方法

GRPO 如何用于代理训练？

基准测试结果

训练使用哪些数据集？

架构概览

OpenManus-RL 与其他 RL 框架相比如何？

这个项目背后的合作关系是什么？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

OpenManus-RL：LLM 代理的强化学习调校

什么是 OpenManus-RL？为什么它很重要？

支持的训练方法

GRPO 如何用于代理训练？

基准测试结果

训练使用哪些数据集？

架构概览

OpenManus-RL 与其他 RL 框架相比如何？

这个项目背后的合作关系是什么？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险