OpenManus-RL es un proyecto de investigacion de codigo abierto en la interseccion del aprendizaje por refuerzo y los sistemas de agentes LLM, desarrollado colaborativamente por Ulab-UIUC (Universidad de Illinois en Urbana-Champaign) y MetaGPT. El proyecto proporciona un marco integral para el ajuste con aprendizaje por refuerzo de agentes basados en LLM, con implementaciones de GRPO (Optimizacion de Politica Relativa a Grupos), ajuste fino supervisado (SFT) y estrategias avanzadas de despliegue disenadas especificamente para tareas agenciales.
A medida que los agentes LLM se vuelven cada vez mas capaces de razonamiento complejo de multiples pasos y uso de herramientas, la necesidad de optimizacion especifica con aprendizaje por refuerzo ha crecido dramaticamente. OpenManus-RL aborda esto proporcionando un pipeline modular y reproducible para entrenar agentes en tareas especificas de agente, con soporte integrado para entornos diversos incluyendo ingenieria de software (SWE-Bench), navegacion web (WebArena) y uso general de herramientas.
Que es OpenManus-RL y por que es importante?
OpenManus-RL es un marco de entrenamiento que aplica algoritmos de aprendizaje por refuerzo para optimizar agentes LLM para objetivos de comportamiento especificos. En lugar de depender unicamente del ajuste fino supervisado a partir de conjuntos de datos estaticos, OpenManus-RL utiliza senales de recompensa de los entornos para mejorar iterativamente el rendimiento del agente. Este enfoque ha demostrado ser critico para lograr resultados de ultima generacion en evaluaciones de agentes complejas donde el aprendizaje por imitacion simple se queda corto.
Metodos de Entrenamiento Soportados
| Metodo | Descripcion | Caso de Uso |
|---|---|---|
| GRPO | Optimizacion de Politica Relativa a Grupos | Comparacion de recompensas multi-trayectoria |
| SFT | Ajuste Fino Supervisado | Clonacion de comportamiento inicial a partir de demostraciones |
| PPO | Optimizacion de Politica Proximal | Optimizacion de recompensa de trayectoria unica |
| Muestreo por Rechazo | Filtrar mejores trayectorias para entrenamiento | Filtrado de calidad |
| GRPO Iterativo | GRPO multironda con politica en evolucion | Mejora continua |
Como funciona GRPO para el entrenamiento de agentes?
GRPO (Optimizacion de Politica Relativa a Grupos) es el algoritmo de entrenamiento central en OpenManus-RL. A diferencia de los metodos RL estandar que requieren una funcion de valor para estimar la ventaja, GRPO muestrea multiples trayectorias de la politica, las evalua utilizando la funcion de recompensa del entorno y calcula ventajas relativas al grupo. Este enfoque relativo al grupo es particularmente adecuado para tareas de agente donde las senales de recompensa son escasas pero las trayectorias comparativas proporcionan ricas senales de aprendizaje.
flowchart TD
A[Modelo de Politica Base] --> B[Muestrear N Trayectorias]
B --> C[Trayectoria 1]
B --> D[Trayectoria 2]
B --> E[Trayectoria N...]
C --> F[Recompensa del Entorno]
D --> F
E --> F
F --> G[Calcular Ventaja de Grupo]
G --> H[Clasificar Trayectorias]
H --> I[Actualizar Politica via GRPO]
I --> B
H --> J[Mejores Trayectorias]
J --> K[Conjunto de Datos SFT]
K --> L[Ajuste Fino Supervisado]
L --> AResultados de Evaluacion
OpenManus-RL ha demostrado mejoras significativas sobre los modelos base en multiples evaluaciones de agentes.
| Evaluacion | Modelo Base | Base + SFT | Base + SFT + GRPO | Mejora |
|---|---|---|---|---|
| SWE-Bench Lite | 18.5% | 30.2% | 38.7% | +20.2% |
| WebArena | 14.2% | 22.8% | 29.5% | +15.3% |
| AgentBench | 35.1% | 48.3% | 56.2% | +21.1% |
| ToolBench | 52.4% | 63.1% | 71.8% | +19.4% |
Que conjuntos de datos se utilizan para el entrenamiento?
OpenManus-RL proporciona conjuntos de datos de entrenamiento seleccionados derivados de trayectorias de agentes. El pipeline de datos de entrenamiento incluye recoleccion de trayectorias de multiples entornos de agentes, anotacion de recompensas utilizando metricas automatizadas y evaluaciones LLM-como-juez, filtrado de calidad para eliminar trayectorias de baja calidad o fallidas, y aumento de datos mediante perturbacion de trayectorias. El proyecto tambien soporta integracion con conjuntos de datos de tareas proporcionados por el usuario para ajuste especifico de dominio.
Vision General de la Arquitectura
La arquitectura del sistema consiste en un bucle de entrenamiento que conecta una politica LLM con entornos de agente. El motor de despliegue gestiona instancias de entorno paralelas para la recoleccion eficiente de trayectorias, mientras que el modelo de recompensa proporciona senales de retroalimentacion. El entrenador RL implementa algoritmos GRPO y PPO con soporte para entrenamiento distribuido a traves de multiples GPUs.
sequenceDiagram
participant Policy as Politica LLM
participant Rollout as Motor de Despliegue
participant Env as Entorno de Agente
participant Reward as Modelo de Recompensa
participant Trainer as Entrenador RL
loop Paso de Entrenamiento
Policy->>Rollout: Generar distribuciones de accion
Rollout->>Env: Lanzar N instancias paralelas
Env-->>Policy: Observaciones de estado
Policy->>Env: Acciones (codigo, navegar, etc.)
Env-->>Rollout: Senales de finalizacion
Rollout->>Reward: Enviar trayectorias
Reward-->>Rollout: Puntajes de recompensa
Rollout-->>Trainer: Trayectorias + recompensas
Trainer->>Trainer: Calcular perdida GRPO
Trainer->>Policy: Actualizar pesos
endComo se compara OpenManus-RL con otros marcos RL?
OpenManus-RL se distingue de los marcos RL generales como RLHF (que se centra en el ajuste de preferencias) y de los marcos especificos de agentes como EvoPrompt (que se centra en la optimizacion de prompts) al apuntar a los requisitos unicos del entrenamiento de agentes LLM. Los diferenciadores clave incluyen soporte nativo para recompensas a nivel de trayectoria (en lugar de a nivel de token), integracion con entornos de agentes populares listos para usar y el calculo de ventaja relativa al grupo que maneja la estructura de recompensa escasa comun en las tareas de agentes.
Cual es la colaboracion detras de este proyecto?
OpenManus-RL es un esfuerzo conjunto entre Ulab-UIUC, liderado por el Prof. Heng Ji en UIUC, y el equipo de MetaGPT. Esta colaboracion academia-industria reune la experiencia de UIUC en aprendizaje por refuerzo e investigacion de agentes de lenguaje con la experiencia practica de MetaGPT en la construccion de sistemas de agentes de grado de produccion. El proyecto ha recibido contribuciones de investigadores de multiples instituciones y continua evolucionando con el campo de RL de agentes en rapido avance.
Preguntas Frecuentes
Que es OpenManus-RL? Es un marco de codigo abierto para el ajuste con aprendizaje por refuerzo de agentes LLM, utilizando GRPO, SFT y otros metodos para optimizar el rendimiento del agente en tareas como ingenieria de software y navegacion web.
Que metodos de entrenamiento soporta? GRPO (Optimizacion de Politica Relativa a Grupos), SFT, PPO, muestreo por rechazo y GRPO iterativo para mejora continua.
En que evaluaciones ha sido probado? SWE-Bench, WebArena, AgentBench y ToolBench, con mejoras del 15-20% sobre los modelos base.
Que conjunto de datos se utiliza? Trayectorias seleccionadas de entornos de agentes con anotacion de recompensas automatizada y LLM-como-juez, mas soporte para conjuntos de datos de tareas proporcionados por el usuario.
Quien esta detras de OpenManus-RL? Una colaboracion entre Ulab-UIUC (Universidad de Illinois en Urbana-Champaign) y MetaGPT.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!