AI

Verifiers:用於訓練 LLM 代理的模組化 RL 環境庫

Verifiers 是一個模組化 Python 庫,用於建立 RL 環境與訓練 LLM 代理,配備解析器、評分量表與 GRPO 訓練器。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
Verifiers:用於訓練 LLM 代理的模組化 RL 環境庫

Verifiers 是由 PrimeIntellect-ai 開發的模組化 Python 庫,提供一個全面框架,用於建立專為訓練 LLM 代理而設計的強化學習環境。專為從事基於 RL 的 LLM 對齊與代理最佳化的研究人員與實務工作者設計,Verifiers 提供一個乾淨、可組合的 API,包含用於解析模型輸出、根據評分量表評估回應、計算獎勵以及執行基於 GRPO 的訓練迴圈的元件。

該庫滿足了 AI 研究社群中日益增長的需求:隨著 GRPO、PPO 與拒絕取樣等基於 RL 的方法成為 LLM 微調的標準,研究人員需要標準化、可重複使用的環境元件,而不是為每個實驗從頭建立訓練基礎設施。Verifiers 正是提供了這一點——一個模組化工具包,環境由可互換的建構區塊組合而成。

什麼是 Verifiers?它如何幫助訓練 LLM 代理?

Verifiers 是一個專為 LLM 代理訓練建立 RL 環境的庫。它提供三個核心元件:解析器從模型輸出中提取結構化資訊,評分量表定義評估標準與評分函數,而環境將解析器與評分量表結合任務特定邏輯。這些環境隨後可與內建的 GRPO 訓練器搭配使用,或整合到現有的 RL 訓練管線中。

Verifiers 的核心元件

元件用途範例
解析器從 LLM 輸出中提取結構化資料RegexParser, JSONParser, XMLParser, CodeParser
評分量表定義評估標準與評分ExactMatch, RubricScorer, LLMJudge, MultiStep
環境結合解析器 + 評分量表 + 任務邏輯MathEnv, CodeEnv, ReasoningEnv, CustomEnv
訓練器執行 RL 訓練迴圈GRPOTrainer, PPOTrainer, RejectionSampling
展開管理並行環境執行SyncRollout, AsyncRollout, DistributedRollout

解析器-評分量表-環境架構如何運作?

該架構遵循清晰的關注點分離原則。解析器處理從自由形式 LLM 文字中提取結構化資訊的繁瑣工作——對於數學問題,這可能從推理鏈中提取最終答案;對於程式碼任務,可能提取函數定義。評分量表定義什麼算是正確答案,並可選擇性地評分部分分數。環境將所有部分串聯起來,管理對話流程、提供系統提示,並計算最終獎勵。

支援的 RL 訓練方法

方法實作使用案例
GRPO群組相對策略最佳化多軌跡比較,無需價值模型
PPO近端策略最佳化單軌跡搭配價值函數
拒絕取樣過濾最佳軌跡並微調品質過濾,RL 冷啟動
Best-of-N從 N 個樣本中選擇最佳推論時間最佳化
多輪 GRPO多輪對話的 GRPO對話式代理訓練

包含哪些 CLI 工具?

Verifiers 附帶命令列介面,讓無需編寫程式碼即可輕鬆執行訓練實驗。verifiers-train 命令啟動 GRPO 訓練,可配置環境、模型與超參數。verifiers-eval 命令評估訓練好的策略在保留任務上的表現。verifiers-bench 命令執行標準化基準測試,比較不同模型與訓練配置。所有 CLI 工具都支援 YAML 配置檔案,用於實驗追蹤與可重現性。

如何安裝 Verifiers?

Verifiers 可透過 pip 取得,需要 Python 3.10+。安裝過程簡單,可選擇不同後端的選用依賴。該庫支援單 GPU 的本地訓練,以及透過 PyTorch Distributed 跨多個 GPU 的分散式訓練。與 Hugging Face 生態系統的整合意味著模型與資料集可以直接從 Hub 載入。

Verifiers 與其他 RL 庫有何不同?

雖然 TRL(Transformer 強化學習)與 RL4LMs 等庫提供一般 RL 訓練能力,但 Verifiers 特別專注於環境建構層,這通常是 LLM RL 研究中最耗時的部分。透過提供可組合的解析器、評分量表與環境,Verifiers 大幅減少了設置新 RL 訓練實驗所需的樣板程式碼。它還附帶 MATH、GSM8K 與 HumanEval 等常見基準測試的預建環境,實現即時實驗。

常見問題

什麼是 Verifiers? Verifiers 是一個模組化 Python 庫,用於建立訓練 LLM 代理的 RL 環境,提供解析器、評分量表、環境與 GRPO 訓練器作為可組合建構區塊。

它包含哪些元件? 解析器(從 LLM 輸出中提取結構化資料)、評分量表(定義評分標準)、環境(結合解析器 + 評分量表 + 任務邏輯)、訓練器(GRPO、PPO)與展開管理器。

支援哪些 RL 訓練方法? GRPO(群組相對策略最佳化)、PPO、拒絕取樣、Best-of-N 取樣,以及用於對話代理的多輪 GRPO。

Verifiers 附帶哪些 CLI 工具? verifiers-train 用於啟動訓練、verifiers-eval 用於評估,以及 verifiers-bench 用於標準化基準測試,全部可透過 YAML 配置。

如何安裝? 透過 pip install verifiers 安裝。需要 Python 3.10+。可選依賴用於分散式訓練與特定模型後端。

延伸閱讀

TAG