2025-2026 年大型语言模型研究中最令人兴奋的前沿并不是让模型变得更大。而是通过强化学习让它们变得更聪明。DeepSeek-R1 证明了 RL 训练——特别是 GRPO(群组相对策略优化)——可以显著提升模型的推理能力,实现与更大模型相匹敌的链式思考推理、自我修正和结构化问题解决。字节跳动(ByteDance),全球最大的科技公司之一,TikTok 和抖音的创作者,一直在大规模应用这些相同技术来训练自己的模型。VeRL 就是这项努力背后的框架。
VeRL (Voltron Reinforcement Learning) 是字节跳动的开源强化学习框架,专门为 LLM 训练设计。它实现了最先进的 RL 算法,包括 PPO(近端策略优化)和 GRPO,与 vLLM 紧密集成以实现训练期间的高效推理,并支持在数百个 GPU 上的分布式训练。VeRL 是驱动字节跳动内部 LLM 开发(包括豆包 AI 助手)的生产框架。
VeRL 的重要性在于它专注于 LLM 的 RL 实际挑战。使用 RL 训练 LLM 比监督式微调复杂得多。它需要维护多个模型副本(行动者、参考、奖励,以及可选的评论家),生成 rollout(要评估的响应),计算奖励,更新策略权重,并在分布式硬件上编排这一切。VeRL 通过一种清晰分离关注点同时最大化 GPU 利用率的架构来处理这种复杂性。
核心架构
VeRL 的架构将 RL 训练的三个关键阶段——rollout 生成、奖励计算和策略更新——分离为可独立扩展的组件:
| 组件 | 功能 | 硬件 | 关键技术 |
|---|---|---|---|
| Rollout 引擎 | 为训练提示生成模型响应 | 推理 GPU | vLLM 集成 |
| 奖励模型 | 对生成的响应评分 | 奖励 GPU | 任何奖励模型 |
| 训练引擎 | 使用 RL 算法更新策略权重 | 训练 GPU | PPO / GRPO |
| 调度器 | 编排分布式训练 | CPU / 控制 | Ray 集群 |
训练管线
下图说明了 VeRL 如何在分布式硬件上编排 RL 训练循环:
flowchart TD
subgraph Data[数据管线]
Dataset[训练提示]
Buffer[经验缓冲区]
end
subgraph Inference[Rollout 生成]
vLLM[vLLM 推理引擎]
Actor[行动者模型<br>要优化的策略]
end
subgraph Reward[奖励计算]
RM[奖励模型]
PRM[过程奖励模型<br>可选:逐步]
end
subgraph Training[训练引擎]
GRPO[GRPO<br>群组相对策略优化]
PPO[PPO<br>近端策略优化]
Ref[参考模型<br>KL 散度锚点]
end
subgraph Storage[模型权重]
NewWeights[更新后的策略]
OldWeights[当前策略]
end
Dataset --> vLLM
vLLM --> Actor
Actor -->|生成的响应| Buffer
Buffer --> RM
Buffer --> PRM
RM -->|奖励分数| GRPO
PRM -->|逐步奖励| GRPO
GRPO --> NewWeights
NewWeights --> Actor
Ref -->|KL 惩罚| GRPO这三个阶段——rollout 生成(左)、奖励计算(中)和策略更新(右)——可以管线化,使得当一批提示正在被评估奖励时,下一批已经在生成 rollout。这种重叠执行最大化 GPU 利用率并最小化每次训练迭代的实际时间。
RL 算法比较
VeRL 实现了多种 RL 算法,每种适用于不同的训练目标:
| 算法 | 奖励结构 | 需要评论家 | 内存 | 最适合 |
|---|---|---|---|---|
| PPO | 绝对奖励值 | 是 | 较高 | 使用学习奖励模型的 RLHF |
| GRPO | 群组内相对奖励 | 否 | 较低 | 推理改进(如 R1) |
| REINFORCE | 直接奖励信号 | 否 | 最低 | 简单偏好优化 |
| DPO | 成对偏好 | 否 | 最低 | 直接偏好学习 |
GRPO 在 2025-2026 年已成为突出的算法,主要是因为它在训练 DeepSeek-R1 和类似推理模型中的作用。通过对完成群组进行相对评分而非使用绝对标准,GRPO 简化了训练并消除了对单独评论家模型的需求。
分布式训练比较
VeRL 的分布式训练能力与其他 RL 框架的比较:
| 功能 | VeRL | TRL | OpenRLHF | DeepSpeed RL |
|---|---|---|---|---|
| vLLM 集成 | 原生 | 无 | 部分 | 无 |
| 张量并行 | 是 | 否 | 是 | 是 |
| 管线并行 | 是 | 否 | 是 | 是 |
| ZeRO 优化 | 是 | 是 | 是 | 是 |
| GRPO 支持 | 原生 | 附加 | 附加 | 无 |
| 生产验证 | 是(字节跳动) | 有限 | 是 | 是 |
开始使用
VeRL GitHub 仓库 提供安装说明、配置指南和示例训练脚本。该项目支持单节点开发(用于使用较小模型进行测试)和多节点生产部署:
# 安装 VeRL
pip install verl
# 启动训练实验
python examples/train_ppo.py --model Qwen2.5-7B --algorithm grpo
vLLM 推理引擎 也是 VeRL rollout 生成管线的关键依赖。
常见问题
什么是 VeRL?
VeRL (Voltron Reinforcement Learning) 是字节跳动的开源框架,用于将强化学习应用于大型语言模型训练。它支持 PPO、GRPO 及其他 RL 算法,具备分布式训练能力,并原生集成 vLLM 以实现训练期间的高效推理。
什么是 GRPO,为什么它很重要?
GRPO(群组相对策略优化)是一种 RL 算法,使用群组奖励比较而非单独的评论家模型来优化 LLM。它简化了 RL 训练管线,降低了内存需求,并已被证明能提升推理能力——它特别用于训练 DeepSeek-R1。
VeRL 如何与 vLLM 集成?
VeRL 在 RL 训练期间使用 vLLM 作为其推理引擎,为 rollout 阶段实现高效的 token 生成。这种紧密的集成意味着行动者模型使用 vLLM 优化的批处理和 KV-cache 管理来生成响应,然后 VeRL 计算奖励并更新模型权重。
VeRL 支持哪些分布式训练基础设施?
VeRL 支持多节点训练,具备张量并行、管线并行和数据并行能力。它与 Ray 集成以进行集群编排,并支持 FSDP(完全分片数据并行)和 ZeRO-3 以在 GPU 间进行模型分片。
VeRL 在字节跳动的生产环境中使用吗?
是的。VeRL 是驱动字节跳动内部 LLM 训练管线的 RL 框架,包括开发豆包(Doubao),字节跳动的旗舰 AI 助手。开源版本反映了生产环境中大规模使用的相同代码和架构。
VeRL 可以用于 RLHF 吗?
是的,VeRL 通过其 PPO 实现支持 RLHF(人类反馈强化学习),也通过 GRPO 支持 RLAIF(AI 反馈强化学习)。该框架设计为可与任何奖励模型搭配使用,无论是从人类偏好训练的还是 LLM 生成的反馈。
延伸阅读
- VeRL GitHub 仓库 – 源代码、文档和训练示例
- DeepSeek-R1:强化学习用于推理 – 推广 GRPO 用于 LLM 推理的论文
- vLLM:高吞吐量 LLM 服务 – 与 VeRL 集成的推理引擎
- Ray 分布式计算 – VeRL 使用的集群编排框架
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!