Verifiers：用於訓練 LLM 代理的模組化 RL 環境庫

Verifiers 是一個模組化 Python 庫，用於建立 RL 環境與訓練 LLM 代理，配備解析器、評分量表與 GRPO 訓練器。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技術編輯團隊 May 03, 2026 閱讀 10 分鐘

Verifiers 是由 PrimeIntellect-ai 開發的模組化 Python 庫，提供一個全面框架，用於建立專為訓練 LLM 代理而設計的強化學習環境。專為從事基於 RL 的 LLM 對齊與代理最佳化的研究人員與實務工作者設計，Verifiers 提供一個乾淨、可組合的 API，包含用於解析模型輸出、根據評分量表評估回應、計算獎勵以及執行基於 GRPO 的訓練迴圈的元件。

該庫滿足了 AI 研究社群中日益增長的需求：隨著 GRPO、PPO 與拒絕取樣等基於 RL 的方法成為 LLM 微調的標準，研究人員需要標準化、可重複使用的環境元件，而不是為每個實驗從頭建立訓練基礎設施。Verifiers 正是提供了這一點——一個模組化工具包，環境由可互換的建構區塊組合而成。

什麼是 Verifiers？它如何幫助訓練 LLM 代理？

Verifiers 是一個專為 LLM 代理訓練建立 RL 環境的庫。它提供三個核心元件：解析器從模型輸出中提取結構化資訊，評分量表定義評估標準與評分函數，而環境將解析器與評分量表結合任務特定邏輯。這些環境隨後可與內建的 GRPO 訓練器搭配使用，或整合到現有的 RL 訓練管線中。

Verifiers 的核心元件

元件	用途	範例
解析器	從 LLM 輸出中提取結構化資料	RegexParser, JSONParser, XMLParser, CodeParser
評分量表	定義評估標準與評分	ExactMatch, RubricScorer, LLMJudge, MultiStep
環境	結合解析器 + 評分量表 + 任務邏輯	MathEnv, CodeEnv, ReasoningEnv, CustomEnv
訓練器	執行 RL 訓練迴圈	GRPOTrainer, PPOTrainer, RejectionSampling
展開	管理並行環境執行	SyncRollout, AsyncRollout, DistributedRollout

解析器-評分量表-環境架構如何運作？

該架構遵循清晰的關注點分離原則。解析器處理從自由形式 LLM 文字中提取結構化資訊的繁瑣工作——對於數學問題，這可能從推理鏈中提取最終答案；對於程式碼任務，可能提取函數定義。評分量表定義什麼算是正確答案，並可選擇性地評分部分分數。環境將所有部分串聯起來，管理對話流程、提供系統提示，並計算最終獎勵。

flowchart LR
    A[LLM 輸出文字] --> B[解析器]
    B --> C{解析成功？}
    C -->|否| D[格式懲罰]
    C -->|是| E[提取的結構]
    E --> F[評分量表]
    F --> G{評分量表匹配？}
    G -->|完全| H[完整獎勵]
    G -->|部分| I[部分獎勵]
    G -->|無| J[零獎勵]
    D --> K[最終分數]
    H --> K
    I --> K
    J --> K
    K --> L[訓練器更新]

支援的 RL 訓練方法

方法	實作	使用案例
GRPO	群組相對策略最佳化	多軌跡比較，無需價值模型
PPO	近端策略最佳化	單軌跡搭配價值函數
拒絕取樣	過濾最佳軌跡並微調	品質過濾，RL 冷啟動
Best-of-N	從 N 個樣本中選擇最佳	推論時間最佳化
多輪 GRPO	多輪對話的 GRPO	對話式代理訓練

包含哪些 CLI 工具？

Verifiers 附帶命令列介面，讓無需編寫程式碼即可輕鬆執行訓練實驗。verifiers-train 命令啟動 GRPO 訓練，可配置環境、模型與超參數。verifiers-eval 命令評估訓練好的策略在保留任務上的表現。verifiers-bench 命令執行標準化基準測試，比較不同模型與訓練配置。所有 CLI 工具都支援 YAML 配置檔案，用於實驗追蹤與可重現性。

sequenceDiagram
    participant User as 使用者
    participant CLI as Verifiers CLI
    participant Env as 環境
    participant Model as LLM
    participant Trainer as RL 訓練器
    participant Log as 實驗記錄器

    User->>CLI: verifiers-train --config math_grpo.yaml
    CLI->>Env: 初始化數學環境
    CLI->>Model: 載入基礎 LLM
    CLI->>Trainer: 建立 GRPO 訓練器
    loop 訓練步驟
        Trainer->>Model: 生成 N 個回應
        Model-->>Env: 原始輸出
        Env->>Env: 解析與評分
        Env-->>Trainer: 獎勵
        Trainer->>Model: GRPO 權重更新
        Trainer->>Log: 記錄指標
    end
    Trainer-->>CLI: 訓練完成
    CLI-->>User: 模型已儲存，指標已匯出

如何安裝 Verifiers？

Verifiers 可透過 pip 取得，需要 Python 3.10+。安裝過程簡單，可選擇不同後端的選用依賴。該庫支援單 GPU 的本地訓練，以及透過 PyTorch Distributed 跨多個 GPU 的分散式訓練。與 Hugging Face 生態系統的整合意味著模型與資料集可以直接從 Hub 載入。

Verifiers 與其他 RL 庫有何不同？

雖然 TRL（Transformer 強化學習）與 RL4LMs 等庫提供一般 RL 訓練能力，但 Verifiers 特別專注於環境建構層，這通常是 LLM RL 研究中最耗時的部分。透過提供可組合的解析器、評分量表與環境，Verifiers 大幅減少了設置新 RL 訓練實驗所需的樣板程式碼。它還附帶 MATH、GSM8K 與 HumanEval 等常見基準測試的預建環境，實現即時實驗。

常見問題

什麼是 Verifiers？ Verifiers 是一個模組化 Python 庫，用於建立訓練 LLM 代理的 RL 環境，提供解析器、評分量表、環境與 GRPO 訓練器作為可組合建構區塊。

它包含哪些元件？ 解析器（從 LLM 輸出中提取結構化資料）、評分量表（定義評分標準）、環境（結合解析器 + 評分量表 + 任務邏輯）、訓練器（GRPO、PPO）與展開管理器。

支援哪些 RL 訓練方法？ GRPO（群組相對策略最佳化）、PPO、拒絕取樣、Best-of-N 取樣，以及用於對話代理的多輪 GRPO。

Verifiers 附帶哪些 CLI 工具？ verifiers-train 用於啟動訓練、verifiers-eval 用於評估，以及 verifiers-bench 用於標準化基準測試，全部可透過 YAML 配置。

如何安裝？ 透過 pip install verifiers 安裝。需要 Python 3.10+。可選依賴用於分散式訓練與特定模型後端。

Verifiers：用於訓練 LLM 代理的模組化 RL 環境庫

什麼是 Verifiers？它如何幫助訓練 LLM 代理？

Verifiers 的核心元件

解析器-評分量表-環境架構如何運作？

支援的 RL 訓練方法

包含哪些 CLI 工具？

如何安裝 Verifiers？

Verifiers 與其他 RL 庫有何不同？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

Verifiers：用於訓練 LLM 代理的模組化 RL 環境庫

什麼是 Verifiers？它如何幫助訓練 LLM 代理？

Verifiers 的核心元件

解析器-評分量表-環境架構如何運作？

支援的 RL 訓練方法

包含哪些 CLI 工具？

如何安裝 Verifiers？

Verifiers 與其他 RL 庫有何不同？

常見問題

延伸閱讀

LATEST POST

馬斯克、庫克與芬克預計本週隨川普訪中代表團赴北京

佛州大學畢業典禮演講者遭噓聲 凸顯世代價值觀斷層與言論風險

Workday、Anthropic 與 LISC 聯手推出 AI 一人創業加速器

TAG

CATEGORIES

佛州大學畢業典禮演講者遭噓聲凸顯世代價值觀斷層與言論風險