Verifiers：用于训练 LLM 代理的模块化 RL 环境库

Verifiers 是一个模块化 Python 库，用于创建 RL 环境与训练 LLM 代理，配备解析器、评分量规与 GRPO 训练器。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 03, 2026 阅读 10 分钟

Verifiers 是由 PrimeIntellect-ai 开发的模块化 Python 库，提供一个全面框架，用于创建专为训练 LLM 代理而设计的强化学习环境。专为从事基于 RL 的 LLM 对齐与代理优化的研究人员与实务工作者设计，Verifiers 提供一个干净、可组合的 API，包含用于解析模型输出、根据评分量规评估回复、计算奖励以及运行基于 GRPO 的训练循环的组件。

该库满足了 AI 研究社区中日益增长的需求：随着 GRPO、PPO 与拒绝采样等基于 RL 的方法成为 LLM 微调的标准，研究人员需要标准化、可重复使用的环境组件，而不是为每个实验从头构建训练基础设施。Verifiers 正是提供了这一点——一个模块化工具包，环境由可互换的构建区块组合而成。

什么是 Verifiers？它如何帮助训练 LLM 代理？

Verifiers 是一个专为 LLM 代理训练创建 RL 环境的库。它提供三个核心组件：解析器从模型输出中提取结构化信息，评分量规定义评估标准与评分函数，而环境将解析器与评分量规结合任务特定逻辑。这些环境随后可与内置的 GRPO 训练器搭配使用，或集成到现有的 RL 训练管线中。

Verifiers 的核心组件

组件	用途	示例
解析器	从 LLM 输出中提取结构化数据	RegexParser, JSONParser, XMLParser, CodeParser
评分量规	定义评估标准与评分	ExactMatch, RubricScorer, LLMJudge, MultiStep
环境	结合解析器 + 评分量规 + 任务逻辑	MathEnv, CodeEnv, ReasoningEnv, CustomEnv
训练器	运行 RL 训练循环	GRPOTrainer, PPOTrainer, RejectionSampling
展开	管理并行环境执行	SyncRollout, AsyncRollout, DistributedRollout

解析器-评分量规-环境架构如何运作？

该架构遵循清晰的关注点分离原则。解析器处理从自由形式 LLM 文本中提取结构化信息的繁琐工作——对于数学问题，这可能从推理链中提取最终答案；对于代码任务，可能提取函数定义。评分量规定义什么算是正确答案，并可选择性地评分部分分数。环境将所有部分串联起来，管理对话流、提供系统提示，并计算最终奖励。

flowchart LR
    A[LLM 输出文本] --> B[解析器]
    B --> C{解析成功？}
    C -->|否| D[格式惩罚]
    C -->|是| E[提取的结构]
    E --> F[评分量规]
    F --> G{评分量规匹配？}
    G -->|完全| H[完整奖励]
    G -->|部分| I[部分奖励]
    G -->|无| J[零奖励]
    D --> K[最终分数]
    H --> K
    I --> K
    J --> K
    K --> L[训练器更新]

支持的 RL 训练方法

方法	实现	使用案例
GRPO	群组相对策略优化	多轨迹比较，无需价值模型
PPO	近端策略优化	单轨迹搭配价值函数
拒绝采样	过滤最佳轨迹并微调	品质过滤，RL 冷启动
Best-of-N	从 N 个样本中选择最佳	推理时间优化
多轮 GRPO	多轮对话的 GRPO	对话式代理训练

包含哪些 CLI 工具？

Verifiers 附带命令行界面，让无需编写代码即可轻松运行训练实验。verifiers-train 命令启动 GRPO 训练，可配置环境、模型与超参数。verifiers-eval 命令评估训练好的策略在保留任务上的表现。verifiers-bench 命令运行标准化基准测试，比较不同模型与训练配置。所有 CLI 工具都支持 YAML 配置文件，用于实验跟踪与可重现性。

sequenceDiagram
    participant User as 用户
    participant CLI as Verifiers CLI
    participant Env as 环境
    participant Model as LLM
    participant Trainer as RL 训练器
    participant Log as 实验记录器

    User->>CLI: verifiers-train --config math_grpo.yaml
    CLI->>Env: 初始化数学环境
    CLI->>Model: 加载基础 LLM
    CLI->>Trainer: 创建 GRPO 训练器
    loop 训练步骤
        Trainer->>Model: 生成 N 个回复
        Model-->>Env: 原始输出
        Env->>Env: 解析与评分
        Env-->>Trainer: 奖励
        Trainer->>Model: GRPO 权重更新
        Trainer->>Log: 记录指标
    end
    Trainer-->>CLI: 训练完成
    CLI-->>User: 模型已保存，指标已导出

如何安装 Verifiers？

Verifiers 可通过 pip 获取，需要 Python 3.10+。安装过程简单，可选择不同后端的可选依赖。该库支持单 GPU 的本地训练，以及通过 PyTorch Distributed 跨多个 GPU 的分布式训练。与 Hugging Face 生态系统的集成意味着模型与数据集可以直接从 Hub 加载。

Verifiers 与其他 RL 库有何不同？

虽然 TRL（Transformer 强化学习）与 RL4LMs 等库提供一般 RL 训练能力，但 Verifiers 特别专注于环境构建层，这通常是 LLM RL 研究中最耗时的部分。通过提供可组合的解析器、评分量规与环境，Verifiers 大幅减少了设置新 RL 训练实验所需的样板代码。它还附带 MATH、GSM8K 与 HumanEval 等常见基准测试的预建环境，实现即时实验。

常见问题

什么是 Verifiers？ Verifiers 是一个模块化 Python 库，用于创建训练 LLM 代理的 RL 环境，提供解析器、评分量规、环境与 GRPO 训练器作为可组合构建区块。

它包含哪些组件？ 解析器（从 LLM 输出中提取结构化数据）、评分量规（定义评分标准）、环境（结合解析器 + 评分量规 + 任务逻辑）、训练器（GRPO、PPO）与展开管理器。

支持哪些 RL 训练方法？ GRPO（群组相对策略优化）、PPO、拒绝采样、Best-of-N 采样，以及用于对话代理的多轮 GRPO。

Verifiers 附带哪些 CLI 工具？ verifiers-train 用于启动训练、verifiers-eval 用于评估，以及 verifiers-bench 用于标准化基准测试，全部可通过 YAML 配置。

如何安装？ 通过 pip install verifiers 安装。需要 Python 3.10+。可选依赖用于分布式训练与特定模型后端。

Verifiers：用于训练 LLM 代理的模块化 RL 环境库

什么是 Verifiers？它如何帮助训练 LLM 代理？

Verifiers 的核心组件

解析器-评分量规-环境架构如何运作？

支持的 RL 训练方法

包含哪些 CLI 工具？

如何安装 Verifiers？

Verifiers 与其他 RL 库有何不同？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

Verifiers：用于训练 LLM 代理的模块化 RL 环境库

什么是 Verifiers？它如何帮助训练 LLM 代理？

Verifiers 的核心组件

解析器-评分量规-环境架构如何运作？

支持的 RL 训练方法

包含哪些 CLI 工具？

如何安装 Verifiers？

Verifiers 与其他 RL 库有何不同？

常见问题

延伸阅读

LATEST POST

马斯克、库克与芬克预计本周随特朗普访中代表团赴北京

佛州大学毕业典礼演讲者遭嘘声 凸显世代价值观断层与言论风险

Workday、Anthropic 与 LISC 联手推出 AI 一人创业加速器

TAG

CATEGORIES

佛州大学毕业典礼演讲者遭嘘声凸显世代价值观断层与言论风险