OpenManus-RL：LLM 代理的強化學習調校

OpenManus-RL 是由 Ulab-UIUC 與 MetaGPT 開發的開源專案，使用 GRPO、SFT 與先進展開策略進行 LLM 代理的強化學習調校。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 03, 2026 閱讀 9 分鐘

OpenManus-RL 是一個位於強化學習與 LLM 代理系統交會點的開源研究專案，由 Ulab-UIUC（伊利諾大學香檳分校）與 MetaGPT 協作開發。該專案提供一個全面的框架，用於 LLM 基礎代理的強化學習調校，實作了 GRPO（群組相對策略最佳化）、監督式微調 (SFT) 以及專為代理任務設計的先進展開策略。

隨著 LLM 代理在複雜多步驟推理與工具使用方面日益強大，針對性強化學習最佳化的需求也急劇增長。OpenManus-RL 透過提供一個模組化、可重現的管線來滿足此需求，用於在代理特定任務上訓練代理，並內建支援多樣化環境，包括軟體工程（SWE-Bench）、網頁導航（WebArena）與一般工具使用。

什麼是 OpenManus-RL？為什麼它很重要？

OpenManus-RL 是一個訓練框架，應用強化學習演算法來最佳化 LLM 代理以達到特定行為目標。OpenManus-RL 不單純依賴靜態資料集的監督式微調，而是使用來自環境的獎勵訊號反覆改善代理表現。這種方法已被證明對於在複雜代理基準測試中達到最先進成果至關重要，而單純的模仿學習在這些測試中表現不佳。

支援的訓練方法

方法	說明	使用案例
GRPO	群組相對策略最佳化	多軌跡獎勵比較
SFT	監督式微調	從示範中進行初始行為複製
PPO	近端策略最佳化	單軌跡獎勵最佳化
拒絕取樣	篩選最佳軌跡進行訓練	品質過濾
迭代 GRPO	多輪 GRPO 搭配演化策略	持續改進

GRPO 如何用於代理訓練？

GRPO（群組相對策略最佳化）是 OpenManus-RL 中的核心訓練演算法。與需要價值函數估計優勢的標準 RL 方法不同，GRPO 從策略中取樣多條軌跡，使用環境的獎勵函數評估它們，並計算相對於群組的優勢。這種群組相對方法特別適合代理任務，因為獎勵訊號雖然稀疏，但比較性軌跡提供了豐富的學習訊號。

flowchart TD
    A[基礎策略模型] --> B[取樣 N 條軌跡]
    B --> C[軌跡 1]
    B --> D[軌跡 2]
    B --> E[軌跡 N...]
    C --> F[環境獎勵]
    D --> F
    E --> F
    F --> G[計算群組優勢]
    G --> H[排名軌跡]
    H --> I[透過 GRPO 更新策略]
    I --> B
    H --> J[最佳軌跡]
    J --> K[SFT 資料集]
    K --> L[監督式微調]
    L --> A

基準測試結果

OpenManus-RL 在多個代理基準測試中展現了相較基礎模型的顯著改進。

基準測試	基礎模型	基礎 + SFT	基礎 + SFT + GRPO	改進
SWE-Bench Lite	18.5%	30.2%	38.7%	+20.2%
WebArena	14.2%	22.8%	29.5%	+15.3%
AgentBench	35.1%	48.3%	56.2%	+21.1%
ToolBench	52.4%	63.1%	71.8%	+19.4%

訓練使用哪些資料集？

OpenManus-RL 提供來自代理軌跡的精選訓練資料集。訓練資料管線包括從多個代理環境收集軌跡、使用自動化指標與 LLM 作為評審的獎勵標註、品質過濾以移除低品質或失敗軌跡，以及透過軌跡擾動進行資料擴充。該專案還支援整合使用者提供的任務資料集以進行領域特定調校。

架構概覽

系統架構包含一個訓練迴圈，將 LLM 策略與代理環境連接起來。展開引擎管理並行環境實例以高效收集軌跡，而獎勵模型提供回饋訊號。RL 訓練器實作 GRPO 與 PPO 演算法，支援跨多個 GPU 的分散式訓練。

sequenceDiagram
    participant Policy as LLM 策略
    participant Rollout as 展開引擎
    participant Env as 代理環境
    participant Reward as 獎勵模型
    participant Trainer as RL 訓練器

    loop 訓練步驟
        Policy->>Rollout: 產生動作分布
        Rollout->>Env: 啟動 N 個並行實例
        Env-->>Policy: 狀態觀察
        Policy->>Env: 動作（程式碼、瀏覽等）
        Env-->>Rollout: 任務完成訊號
        Rollout->>Reward: 提交軌跡
        Reward-->>Rollout: 獎勵分數
        Rollout-->>Trainer: 批次軌跡 + 獎勵
        Trainer->>Trainer: 計算 GRPO 損失
        Trainer->>Policy: 更新權重
    end

OpenManus-RL 與其他 RL 框架相比如何？

OpenManus-RL 與一般 RL 框架（如 RLHF，專注於偏好調校）以及代理特定框架（如 EvoPrompt，專注於提示最佳化）不同，它針對 LLM 代理訓練的獨特需求。關鍵差異包括原生支援軌跡層級獎勵（而非 token 層級）、開箱即用整合熱門代理環境，以及處理代理任務中常見稀疏獎勵結構的群組相對優勢計算。

這個專案背後的合作關係是什麼？

OpenManus-RL 是 Ulab-UIUC（由 UIUC 的計曦教授領導）與 MetaGPT 團隊的聯合努力。這種學術與產業合作將 UIUC 在強化學習與語言代理研究方面的專業知識，與 MetaGPT 在構建生產級代理系統方面的實務經驗結合。該專案已獲得來自多個機構研究人員的貢獻，並隨著代理 RL 領域的快速發展而不斷演進。

常見問題

什麼是 OpenManus-RL？ 它是一個用於 LLM 代理強化學習調校的開源框架，使用 GRPO、SFT 等方法最佳化代理在軟體工程與網頁導航等任務上的表現。

它支援哪些訓練方法？ GRPO（群組相對策略最佳化）、SFT、PPO、拒絕取樣與迭代 GRPO 以持續改進。

在哪些基準測試上進行過測試？ SWE-Bench、WebArena、AgentBench 與 ToolBench，相較基礎模型改進 15-20%。

使用什麼資料集？ 來自代理環境的精選軌跡，搭配自動化與 LLM 作為評審的獎勵標註，加上支援使用者提供的任務資料集。

誰在開發 OpenManus-RL？ Ulab-UIUC（伊利諾大學香檳分校）與 MetaGPT 的合作。

OpenManus-RL：LLM 代理的強化學習調校

什麼是 OpenManus-RL？為什麼它很重要？

支援的訓練方法

GRPO 如何用於代理訓練？

基準測試結果

訓練使用哪些資料集？

架構概覽

OpenManus-RL 與其他 RL 框架相比如何？

這個專案背後的合作關係是什麼？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

OpenManus-RL：LLM 代理的強化學習調校

什麼是 OpenManus-RL？為什麼它很重要？

支援的訓練方法

GRPO 如何用於代理訓練？

基準測試結果

訓練使用哪些資料集？

架構概覽

OpenManus-RL 與其他 RL 框架相比如何？

這個專案背後的合作關係是什麼？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲 凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險