OpenManus-RL: Ajuste con Aprendizaje por Refuerzo para Agentes LLM

OpenManus-RL es un proyecto de codigo abierto de Ulab-UIUC y MetaGPT para el ajuste con RL de agentes LLM usando GRPO, SFT y estrategias avanzadas de despliegue.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 03, 2026 6 min de lectura

OpenManus-RL es un proyecto de investigacion de codigo abierto en la interseccion del aprendizaje por refuerzo y los sistemas de agentes LLM, desarrollado colaborativamente por Ulab-UIUC (Universidad de Illinois en Urbana-Champaign) y MetaGPT. El proyecto proporciona un marco integral para el ajuste con aprendizaje por refuerzo de agentes basados en LLM, con implementaciones de GRPO (Optimizacion de Politica Relativa a Grupos), ajuste fino supervisado (SFT) y estrategias avanzadas de despliegue disenadas especificamente para tareas agenciales.

A medida que los agentes LLM se vuelven cada vez mas capaces de razonamiento complejo de multiples pasos y uso de herramientas, la necesidad de optimizacion especifica con aprendizaje por refuerzo ha crecido dramaticamente. OpenManus-RL aborda esto proporcionando un pipeline modular y reproducible para entrenar agentes en tareas especificas de agente, con soporte integrado para entornos diversos incluyendo ingenieria de software (SWE-Bench), navegacion web (WebArena) y uso general de herramientas.

Que es OpenManus-RL y por que es importante?

OpenManus-RL es un marco de entrenamiento que aplica algoritmos de aprendizaje por refuerzo para optimizar agentes LLM para objetivos de comportamiento especificos. En lugar de depender unicamente del ajuste fino supervisado a partir de conjuntos de datos estaticos, OpenManus-RL utiliza senales de recompensa de los entornos para mejorar iterativamente el rendimiento del agente. Este enfoque ha demostrado ser critico para lograr resultados de ultima generacion en evaluaciones de agentes complejas donde el aprendizaje por imitacion simple se queda corto.

Metodos de Entrenamiento Soportados

Metodo	Descripcion	Caso de Uso
GRPO	Optimizacion de Politica Relativa a Grupos	Comparacion de recompensas multi-trayectoria
SFT	Ajuste Fino Supervisado	Clonacion de comportamiento inicial a partir de demostraciones
PPO	Optimizacion de Politica Proximal	Optimizacion de recompensa de trayectoria unica
Muestreo por Rechazo	Filtrar mejores trayectorias para entrenamiento	Filtrado de calidad
GRPO Iterativo	GRPO multironda con politica en evolucion	Mejora continua

Como funciona GRPO para el entrenamiento de agentes?

GRPO (Optimizacion de Politica Relativa a Grupos) es el algoritmo de entrenamiento central en OpenManus-RL. A diferencia de los metodos RL estandar que requieren una funcion de valor para estimar la ventaja, GRPO muestrea multiples trayectorias de la politica, las evalua utilizando la funcion de recompensa del entorno y calcula ventajas relativas al grupo. Este enfoque relativo al grupo es particularmente adecuado para tareas de agente donde las senales de recompensa son escasas pero las trayectorias comparativas proporcionan ricas senales de aprendizaje.

flowchart TD
    A[Modelo de Politica Base] --> B[Muestrear N Trayectorias]
    B --> C[Trayectoria 1]
    B --> D[Trayectoria 2]
    B --> E[Trayectoria N...]
    C --> F[Recompensa del Entorno]
    D --> F
    E --> F
    F --> G[Calcular Ventaja de Grupo]
    G --> H[Clasificar Trayectorias]
    H --> I[Actualizar Politica via GRPO]
    I --> B
    H --> J[Mejores Trayectorias]
    J --> K[Conjunto de Datos SFT]
    K --> L[Ajuste Fino Supervisado]
    L --> A

Resultados de Evaluacion

OpenManus-RL ha demostrado mejoras significativas sobre los modelos base en multiples evaluaciones de agentes.

Evaluacion	Modelo Base	Base + SFT	Base + SFT + GRPO	Mejora
SWE-Bench Lite	18.5%	30.2%	38.7%	+20.2%
WebArena	14.2%	22.8%	29.5%	+15.3%
AgentBench	35.1%	48.3%	56.2%	+21.1%
ToolBench	52.4%	63.1%	71.8%	+19.4%

Que conjuntos de datos se utilizan para el entrenamiento?

OpenManus-RL proporciona conjuntos de datos de entrenamiento seleccionados derivados de trayectorias de agentes. El pipeline de datos de entrenamiento incluye recoleccion de trayectorias de multiples entornos de agentes, anotacion de recompensas utilizando metricas automatizadas y evaluaciones LLM-como-juez, filtrado de calidad para eliminar trayectorias de baja calidad o fallidas, y aumento de datos mediante perturbacion de trayectorias. El proyecto tambien soporta integracion con conjuntos de datos de tareas proporcionados por el usuario para ajuste especifico de dominio.

Vision General de la Arquitectura

La arquitectura del sistema consiste en un bucle de entrenamiento que conecta una politica LLM con entornos de agente. El motor de despliegue gestiona instancias de entorno paralelas para la recoleccion eficiente de trayectorias, mientras que el modelo de recompensa proporciona senales de retroalimentacion. El entrenador RL implementa algoritmos GRPO y PPO con soporte para entrenamiento distribuido a traves de multiples GPUs.

sequenceDiagram
    participant Policy as Politica LLM
    participant Rollout as Motor de Despliegue
    participant Env as Entorno de Agente
    participant Reward as Modelo de Recompensa
    participant Trainer as Entrenador RL

    loop Paso de Entrenamiento
        Policy->>Rollout: Generar distribuciones de accion
        Rollout->>Env: Lanzar N instancias paralelas
        Env-->>Policy: Observaciones de estado
        Policy->>Env: Acciones (codigo, navegar, etc.)
        Env-->>Rollout: Senales de finalizacion
        Rollout->>Reward: Enviar trayectorias
        Reward-->>Rollout: Puntajes de recompensa
        Rollout-->>Trainer: Trayectorias + recompensas
        Trainer->>Trainer: Calcular perdida GRPO
        Trainer->>Policy: Actualizar pesos
    end

Como se compara OpenManus-RL con otros marcos RL?

OpenManus-RL se distingue de los marcos RL generales como RLHF (que se centra en el ajuste de preferencias) y de los marcos especificos de agentes como EvoPrompt (que se centra en la optimizacion de prompts) al apuntar a los requisitos unicos del entrenamiento de agentes LLM. Los diferenciadores clave incluyen soporte nativo para recompensas a nivel de trayectoria (en lugar de a nivel de token), integracion con entornos de agentes populares listos para usar y el calculo de ventaja relativa al grupo que maneja la estructura de recompensa escasa comun en las tareas de agentes.

Cual es la colaboracion detras de este proyecto?

OpenManus-RL es un esfuerzo conjunto entre Ulab-UIUC, liderado por el Prof. Heng Ji en UIUC, y el equipo de MetaGPT. Esta colaboracion academia-industria reune la experiencia de UIUC en aprendizaje por refuerzo e investigacion de agentes de lenguaje con la experiencia practica de MetaGPT en la construccion de sistemas de agentes de grado de produccion. El proyecto ha recibido contribuciones de investigadores de multiples instituciones y continua evolucionando con el campo de RL de agentes en rapido avance.

Preguntas Frecuentes

Que es OpenManus-RL? Es un marco de codigo abierto para el ajuste con aprendizaje por refuerzo de agentes LLM, utilizando GRPO, SFT y otros metodos para optimizar el rendimiento del agente en tareas como ingenieria de software y navegacion web.

Que metodos de entrenamiento soporta? GRPO (Optimizacion de Politica Relativa a Grupos), SFT, PPO, muestreo por rechazo y GRPO iterativo para mejora continua.

En que evaluaciones ha sido probado? SWE-Bench, WebArena, AgentBench y ToolBench, con mejoras del 15-20% sobre los modelos base.

Que conjunto de datos se utiliza? Trayectorias seleccionadas de entornos de agentes con anotacion de recompensas automatizada y LLM-como-juez, mas soporte para conjuntos de datos de tareas proporcionados por el usuario.

Quien esta detras de OpenManus-RL? Una colaboracion entre Ulab-UIUC (Universidad de Illinois en Urbana-Champaign) y MetaGPT.

OpenManus-RL: Ajuste con Aprendizaje por Refuerzo para Agentes LLM

Que es OpenManus-RL y por que es importante?

Metodos de Entrenamiento Soportados

Como funciona GRPO para el entrenamiento de agentes?

Resultados de Evaluacion

Que conjuntos de datos se utilizan para el entrenamiento?

Vision General de la Arquitectura

Como se compara OpenManus-RL con otros marcos RL?

Cual es la colaboracion detras de este proyecto?

Preguntas Frecuentes

Lecturas Adicionales

LATEST POST

Workday, Anthropic y LISC lanzan aceleradora de solopreneurs con IA

Sensor Tower adquiere AppMagic para reforzar su línea de análisis para pymes

Musk, Cook y Fink se espera que se unan a la delegación de Trump en Pekín esta s

TAG

CATEGORIES