IA

OpenManus-RL: Ajuste con Aprendizaje por Refuerzo para Agentes LLM

OpenManus-RL es un proyecto de codigo abierto de Ulab-UIUC y MetaGPT para el ajuste con RL de agentes LLM usando GRPO, SFT y estrategias avanzadas de despliegue.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
OpenManus-RL: Ajuste con Aprendizaje por Refuerzo para Agentes LLM

OpenManus-RL es un proyecto de investigacion de codigo abierto en la interseccion del aprendizaje por refuerzo y los sistemas de agentes LLM, desarrollado colaborativamente por Ulab-UIUC (Universidad de Illinois en Urbana-Champaign) y MetaGPT. El proyecto proporciona un marco integral para el ajuste con aprendizaje por refuerzo de agentes basados en LLM, con implementaciones de GRPO (Optimizacion de Politica Relativa a Grupos), ajuste fino supervisado (SFT) y estrategias avanzadas de despliegue disenadas especificamente para tareas agenciales.

A medida que los agentes LLM se vuelven cada vez mas capaces de razonamiento complejo de multiples pasos y uso de herramientas, la necesidad de optimizacion especifica con aprendizaje por refuerzo ha crecido dramaticamente. OpenManus-RL aborda esto proporcionando un pipeline modular y reproducible para entrenar agentes en tareas especificas de agente, con soporte integrado para entornos diversos incluyendo ingenieria de software (SWE-Bench), navegacion web (WebArena) y uso general de herramientas.

Que es OpenManus-RL y por que es importante?

OpenManus-RL es un marco de entrenamiento que aplica algoritmos de aprendizaje por refuerzo para optimizar agentes LLM para objetivos de comportamiento especificos. En lugar de depender unicamente del ajuste fino supervisado a partir de conjuntos de datos estaticos, OpenManus-RL utiliza senales de recompensa de los entornos para mejorar iterativamente el rendimiento del agente. Este enfoque ha demostrado ser critico para lograr resultados de ultima generacion en evaluaciones de agentes complejas donde el aprendizaje por imitacion simple se queda corto.

Metodos de Entrenamiento Soportados

MetodoDescripcionCaso de Uso
GRPOOptimizacion de Politica Relativa a GruposComparacion de recompensas multi-trayectoria
SFTAjuste Fino SupervisadoClonacion de comportamiento inicial a partir de demostraciones
PPOOptimizacion de Politica ProximalOptimizacion de recompensa de trayectoria unica
Muestreo por RechazoFiltrar mejores trayectorias para entrenamientoFiltrado de calidad
GRPO IterativoGRPO multironda con politica en evolucionMejora continua

Como funciona GRPO para el entrenamiento de agentes?

GRPO (Optimizacion de Politica Relativa a Grupos) es el algoritmo de entrenamiento central en OpenManus-RL. A diferencia de los metodos RL estandar que requieren una funcion de valor para estimar la ventaja, GRPO muestrea multiples trayectorias de la politica, las evalua utilizando la funcion de recompensa del entorno y calcula ventajas relativas al grupo. Este enfoque relativo al grupo es particularmente adecuado para tareas de agente donde las senales de recompensa son escasas pero las trayectorias comparativas proporcionan ricas senales de aprendizaje.

Resultados de Evaluacion

OpenManus-RL ha demostrado mejoras significativas sobre los modelos base en multiples evaluaciones de agentes.

EvaluacionModelo BaseBase + SFTBase + SFT + GRPOMejora
SWE-Bench Lite18.5%30.2%38.7%+20.2%
WebArena14.2%22.8%29.5%+15.3%
AgentBench35.1%48.3%56.2%+21.1%
ToolBench52.4%63.1%71.8%+19.4%

Que conjuntos de datos se utilizan para el entrenamiento?

OpenManus-RL proporciona conjuntos de datos de entrenamiento seleccionados derivados de trayectorias de agentes. El pipeline de datos de entrenamiento incluye recoleccion de trayectorias de multiples entornos de agentes, anotacion de recompensas utilizando metricas automatizadas y evaluaciones LLM-como-juez, filtrado de calidad para eliminar trayectorias de baja calidad o fallidas, y aumento de datos mediante perturbacion de trayectorias. El proyecto tambien soporta integracion con conjuntos de datos de tareas proporcionados por el usuario para ajuste especifico de dominio.

Vision General de la Arquitectura

La arquitectura del sistema consiste en un bucle de entrenamiento que conecta una politica LLM con entornos de agente. El motor de despliegue gestiona instancias de entorno paralelas para la recoleccion eficiente de trayectorias, mientras que el modelo de recompensa proporciona senales de retroalimentacion. El entrenador RL implementa algoritmos GRPO y PPO con soporte para entrenamiento distribuido a traves de multiples GPUs.

Como se compara OpenManus-RL con otros marcos RL?

OpenManus-RL se distingue de los marcos RL generales como RLHF (que se centra en el ajuste de preferencias) y de los marcos especificos de agentes como EvoPrompt (que se centra en la optimizacion de prompts) al apuntar a los requisitos unicos del entrenamiento de agentes LLM. Los diferenciadores clave incluyen soporte nativo para recompensas a nivel de trayectoria (en lugar de a nivel de token), integracion con entornos de agentes populares listos para usar y el calculo de ventaja relativa al grupo que maneja la estructura de recompensa escasa comun en las tareas de agentes.

Cual es la colaboracion detras de este proyecto?

OpenManus-RL es un esfuerzo conjunto entre Ulab-UIUC, liderado por el Prof. Heng Ji en UIUC, y el equipo de MetaGPT. Esta colaboracion academia-industria reune la experiencia de UIUC en aprendizaje por refuerzo e investigacion de agentes de lenguaje con la experiencia practica de MetaGPT en la construccion de sistemas de agentes de grado de produccion. El proyecto ha recibido contribuciones de investigadores de multiples instituciones y continua evolucionando con el campo de RL de agentes en rapido avance.

Preguntas Frecuentes

Que es OpenManus-RL? Es un marco de codigo abierto para el ajuste con aprendizaje por refuerzo de agentes LLM, utilizando GRPO, SFT y otros metodos para optimizar el rendimiento del agente en tareas como ingenieria de software y navegacion web.

Que metodos de entrenamiento soporta? GRPO (Optimizacion de Politica Relativa a Grupos), SFT, PPO, muestreo por rechazo y GRPO iterativo para mejora continua.

En que evaluaciones ha sido probado? SWE-Bench, WebArena, AgentBench y ToolBench, con mejoras del 15-20% sobre los modelos base.

Que conjunto de datos se utiliza? Trayectorias seleccionadas de entornos de agentes con anotacion de recompensas automatizada y LLM-como-juez, mas soporte para conjuntos de datos de tareas proporcionados por el usuario.

Quien esta detras de OpenManus-RL? Una colaboracion entre Ulab-UIUC (Universidad de Illinois en Urbana-Champaign) y MetaGPT.

Lecturas Adicionales

TAG
CATEGORIES