LLM 代理

AI May 03, 2026

Verifiers：用于训练 LLM 代理的模块化 RL 环境库

Verifiers 是由 PrimeIntellect-ai 开发的模块化 Python 库，提供一个全面框架，用于创建专为训练 LLM 代理而设计的强化学习环境。专为从事基于 RL 的 LLM 对齐与代理优化的研究人员与实务工作者设计，Verifiers 提供一个干净、可组合的 API， …

AI May 03, 2026

OpenManus-RL 是一个位于强化学习与 LLM 代理系统交汇点的开源研究项目，由 Ulab-UIUC（伊利诺伊大学厄巴纳-香槟分校）与 MetaGPT 协作开发。该项目提供一个全面的框架，用于 LLM 基础代理的强化学习调校，实现了 GRPO（群组相对策略优化）、监督式微调 …