OpenManus-RL 是一個位於強化學習與 LLM 代理系統交會點的開源研究專案,由 Ulab-UIUC(伊利諾大學香檳分校)與 MetaGPT 協作開發。該專案提供一個全面的框架,用於 LLM 基礎代理的強化學習調校,實作了 GRPO(群組相對策略最佳化)、監督式微調 (SFT) 以及專為代理任務設計的先進展開策略。
隨著 LLM 代理在複雜多步驟推理與工具使用方面日益強大,針對性強化學習最佳化的需求也急劇增長。OpenManus-RL 透過提供一個模組化、可重現的管線來滿足此需求,用於在代理特定任務上訓練代理,並內建支援多樣化環境,包括軟體工程(SWE-Bench)、網頁導航(WebArena)與一般工具使用。
什麼是 OpenManus-RL?為什麼它很重要?
OpenManus-RL 是一個訓練框架,應用強化學習演算法來最佳化 LLM 代理以達到特定行為目標。OpenManus-RL 不單純依賴靜態資料集的監督式微調,而是使用來自環境的獎勵訊號反覆改善代理表現。這種方法已被證明對於在複雜代理基準測試中達到最先進成果至關重要,而單純的模仿學習在這些測試中表現不佳。
支援的訓練方法
| 方法 | 說明 | 使用案例 |
|---|---|---|
| GRPO | 群組相對策略最佳化 | 多軌跡獎勵比較 |
| SFT | 監督式微調 | 從示範中進行初始行為複製 |
| PPO | 近端策略最佳化 | 單軌跡獎勵最佳化 |
| 拒絕取樣 | 篩選最佳軌跡進行訓練 | 品質過濾 |
| 迭代 GRPO | 多輪 GRPO 搭配演化策略 | 持續改進 |
GRPO 如何用於代理訓練?
GRPO(群組相對策略最佳化)是 OpenManus-RL 中的核心訓練演算法。與需要價值函數估計優勢的標準 RL 方法不同,GRPO 從策略中取樣多條軌跡,使用環境的獎勵函數評估它們,並計算相對於群組的優勢。這種群組相對方法特別適合代理任務,因為獎勵訊號雖然稀疏,但比較性軌跡提供了豐富的學習訊號。
flowchart TD
A[基礎策略模型] --> B[取樣 N 條軌跡]
B --> C[軌跡 1]
B --> D[軌跡 2]
B --> E[軌跡 N...]
C --> F[環境獎勵]
D --> F
E --> F
F --> G[計算群組優勢]
G --> H[排名軌跡]
H --> I[透過 GRPO 更新策略]
I --> B
H --> J[最佳軌跡]
J --> K[SFT 資料集]
K --> L[監督式微調]
L --> A基準測試結果
OpenManus-RL 在多個代理基準測試中展現了相較基礎模型的顯著改進。
| 基準測試 | 基礎模型 | 基礎 + SFT | 基礎 + SFT + GRPO | 改進 |
|---|---|---|---|---|
| SWE-Bench Lite | 18.5% | 30.2% | 38.7% | +20.2% |
| WebArena | 14.2% | 22.8% | 29.5% | +15.3% |
| AgentBench | 35.1% | 48.3% | 56.2% | +21.1% |
| ToolBench | 52.4% | 63.1% | 71.8% | +19.4% |
訓練使用哪些資料集?
OpenManus-RL 提供來自代理軌跡的精選訓練資料集。訓練資料管線包括從多個代理環境收集軌跡、使用自動化指標與 LLM 作為評審的獎勵標註、品質過濾以移除低品質或失敗軌跡,以及透過軌跡擾動進行資料擴充。該專案還支援整合使用者提供的任務資料集以進行領域特定調校。
架構概覽
系統架構包含一個訓練迴圈,將 LLM 策略與代理環境連接起來。展開引擎管理並行環境實例以高效收集軌跡,而獎勵模型提供回饋訊號。RL 訓練器實作 GRPO 與 PPO 演算法,支援跨多個 GPU 的分散式訓練。
sequenceDiagram
participant Policy as LLM 策略
participant Rollout as 展開引擎
participant Env as 代理環境
participant Reward as 獎勵模型
participant Trainer as RL 訓練器
loop 訓練步驟
Policy->>Rollout: 產生動作分布
Rollout->>Env: 啟動 N 個並行實例
Env-->>Policy: 狀態觀察
Policy->>Env: 動作(程式碼、瀏覽等)
Env-->>Rollout: 任務完成訊號
Rollout->>Reward: 提交軌跡
Reward-->>Rollout: 獎勵分數
Rollout-->>Trainer: 批次軌跡 + 獎勵
Trainer->>Trainer: 計算 GRPO 損失
Trainer->>Policy: 更新權重
endOpenManus-RL 與其他 RL 框架相比如何?
OpenManus-RL 與一般 RL 框架(如 RLHF,專注於偏好調校)以及代理特定框架(如 EvoPrompt,專注於提示最佳化)不同,它針對 LLM 代理訓練的獨特需求。關鍵差異包括原生支援軌跡層級獎勵(而非 token 層級)、開箱即用整合熱門代理環境,以及處理代理任務中常見稀疏獎勵結構的群組相對優勢計算。
這個專案背後的合作關係是什麼?
OpenManus-RL 是 Ulab-UIUC(由 UIUC 的 計曦教授領導)與 MetaGPT 團隊的聯合努力。這種學術與產業合作將 UIUC 在強化學習與語言代理研究方面的專業知識,與 MetaGPT 在構建生產級代理系統方面的實務經驗結合。該專案已獲得來自多個機構研究人員的貢獻,並隨著代理 RL 領域的快速發展而不斷演進。
常見問題
什麼是 OpenManus-RL? 它是一個用於 LLM 代理強化學習調校的開源框架,使用 GRPO、SFT 等方法最佳化代理在軟體工程與網頁導航等任務上的表現。
它支援哪些訓練方法? GRPO(群組相對策略最佳化)、SFT、PPO、拒絕取樣與迭代 GRPO 以持續改進。
在哪些基準測試上進行過測試? SWE-Bench、WebArena、AgentBench 與 ToolBench,相較基礎模型改進 15-20%。
使用什麼資料集? 來自代理環境的精選軌跡,搭配自動化與 LLM 作為評審的獎勵標註,加上支援使用者提供的任務資料集。
誰在開發 OpenManus-RL? Ulab-UIUC(伊利諾大學香檳分校)與 MetaGPT 的合作。
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!