VeRL：字节跳动的 LLM 强化学习框架

Q: "什么是 VeRL？"

"VeRL (Voltron Reinforcement Learning) 是字节跳动的开源框架，用于将强化学习应用于大型语言模型训练。它支持 PPO、GRPO 及其他 RL 算法，具备分布式训练能力，并原生集成 vLLM 以实现训练期间的高效推理。"

Q: "什么是 GRPO，为什么它很重要？"

"GRPO（群组相对策略优化）是一种 RL 算法，使用群组奖励比较而非单独的评论家模型来优化 LLM。它简化了 RL 训练管线，降低了内存需求，并已被证明能提升推理能力——它特别用于训练 DeepSeek-R1。"

Q: "VeRL 如何与 vLLM 集成？"

"VeRL 在 RL 训练期间使用 vLLM 作为其推理引擎，为 rollout 阶段实现高效的 token 生成。这种紧密的集成意味着行动者模型使用 vLLM 优化的批处理和 KV-cache 管理来生成响应，然后 VeRL 计算奖励并更新模型权重。"

Q: "VeRL 支持哪些分布式训练基础设施？"

"VeRL 支持多节点训练，具备张量并行、管线并行和数据并行能力。它与 Ray 集成以进行集群编排，并支持 FSDP（完全分片数据并行）和 ZeRO-3 以在 GPU 间进行模型分片。"

Q: "VeRL 在字节跳动的生产环境中使用吗？"

"是的。VeRL 是驱动字节跳动内部 LLM 训练管线的 RL 框架，包括开发豆包（Doubao），字节跳动的旗舰 AI 助手。开源版本反映了生产环境中大规模使用的相同代码和架构。"

Q: "VeRL 可以用于 RLHF 吗？"

"是的，VeRL 通过其 PPO 实现支持 RLHF（人类反馈强化学习），也通过 GRPO 支持 RLAIF（AI 反馈强化学习）。该框架设计为可与任何奖励模型搭配使用，无论是从人类偏好训练的还是 LLM 生成的反馈。"

VeRL 是字节跳动的开源 LLM 训练 RL 框架，支持 PPO、GRPO 以及与 vLLM 集成的分布式训练。

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

技术编辑团队 May 05, 2026 阅读 11 分钟

2025-2026 年大型语言模型研究中最令人兴奋的前沿并不是让模型变得更大。而是通过强化学习让它们变得更聪明。DeepSeek-R1 证明了 RL 训练——特别是 GRPO（群组相对策略优化）——可以显著提升模型的推理能力，实现与更大模型相匹敌的链式思考推理、自我修正和结构化问题解决。字节跳动（ByteDance），全球最大的科技公司之一，TikTok 和抖音的创作者，一直在大规模应用这些相同技术来训练自己的模型。VeRL 就是这项努力背后的框架。

VeRL (Voltron Reinforcement Learning) 是字节跳动的开源强化学习框架，专门为 LLM 训练设计。它实现了最先进的 RL 算法，包括 PPO（近端策略优化）和 GRPO，与 vLLM 紧密集成以实现训练期间的高效推理，并支持在数百个 GPU 上的分布式训练。VeRL 是驱动字节跳动内部 LLM 开发（包括豆包 AI 助手）的生产框架。

VeRL 的重要性在于它专注于 LLM 的 RL 实际挑战。使用 RL 训练 LLM 比监督式微调复杂得多。它需要维护多个模型副本（行动者、参考、奖励，以及可选的评论家），生成 rollout（要评估的响应），计算奖励，更新策略权重，并在分布式硬件上编排这一切。VeRL 通过一种清晰分离关注点同时最大化 GPU 利用率的架构来处理这种复杂性。

核心架构

VeRL 的架构将 RL 训练的三个关键阶段——rollout 生成、奖励计算和策略更新——分离为可独立扩展的组件：

组件	功能	硬件	关键技术
Rollout 引擎	为训练提示生成模型响应	推理 GPU	vLLM 集成
奖励模型	对生成的响应评分	奖励 GPU	任何奖励模型
训练引擎	使用 RL 算法更新策略权重	训练 GPU	PPO / GRPO
调度器	编排分布式训练	CPU / 控制	Ray 集群

训练管线

下图说明了 VeRL 如何在分布式硬件上编排 RL 训练循环：

flowchart TD
    subgraph Data[数据管线]
        Dataset[训练提示]
        Buffer[经验缓冲区]
    end

    subgraph Inference[Rollout 生成]
        vLLM[vLLM 推理引擎]
        Actor[行动者模型<br>要优化的策略]
    end

    subgraph Reward[奖励计算]
        RM[奖励模型]
        PRM[过程奖励模型<br>可选：逐步]
    end

    subgraph Training[训练引擎]
        GRPO[GRPO<br>群组相对策略优化]
        PPO[PPO<br>近端策略优化]
        Ref[参考模型<br>KL 散度锚点]
    end

    subgraph Storage[模型权重]
        NewWeights[更新后的策略]
        OldWeights[当前策略]
    end

    Dataset --> vLLM
    vLLM --> Actor
    Actor -->|生成的响应| Buffer
    Buffer --> RM
    Buffer --> PRM
    RM -->|奖励分数| GRPO
    PRM -->|逐步奖励| GRPO
    GRPO --> NewWeights
    NewWeights --> Actor
    Ref -->|KL 惩罚| GRPO

这三个阶段——rollout 生成（左）、奖励计算（中）和策略更新（右）——可以管线化，使得当一批提示正在被评估奖励时，下一批已经在生成 rollout。这种重叠执行最大化 GPU 利用率并最小化每次训练迭代的实际时间。

RL 算法比较

VeRL 实现了多种 RL 算法，每种适用于不同的训练目标：

算法	奖励结构	需要评论家	内存	最适合
PPO	绝对奖励值	是	较高	使用学习奖励模型的 RLHF
GRPO	群组内相对奖励	否	较低	推理改进（如 R1）
REINFORCE	直接奖励信号	否	最低	简单偏好优化
DPO	成对偏好	否	最低	直接偏好学习

GRPO 在 2025-2026 年已成为突出的算法，主要是因为它在训练 DeepSeek-R1 和类似推理模型中的作用。通过对完成群组进行相对评分而非使用绝对标准，GRPO 简化了训练并消除了对单独评论家模型的需求。

分布式训练比较

VeRL 的分布式训练能力与其他 RL 框架的比较：

功能	VeRL	TRL	OpenRLHF	DeepSpeed RL
vLLM 集成	原生	无	部分	无
张量并行	是	否	是	是
管线并行	是	否	是	是
ZeRO 优化	是	是	是	是
GRPO 支持	原生	附加	附加	无
生产验证	是（字节跳动）	有限	是	是

开始使用

VeRL GitHub 仓库提供安装说明、配置指南和示例训练脚本。该项目支持单节点开发（用于使用较小模型进行测试）和多节点生产部署：

# 安装 VeRL
pip install verl

# 启动训练实验
python examples/train_ppo.py --model Qwen2.5-7B --algorithm grpo

vLLM 推理引擎也是 VeRL rollout 生成管线的关键依赖。

常见问题

什么是 VeRL？

VeRL (Voltron Reinforcement Learning) 是字节跳动的开源框架，用于将强化学习应用于大型语言模型训练。它支持 PPO、GRPO 及其他 RL 算法，具备分布式训练能力，并原生集成 vLLM 以实现训练期间的高效推理。

什么是 GRPO，为什么它很重要？

GRPO（群组相对策略优化）是一种 RL 算法，使用群组奖励比较而非单独的评论家模型来优化 LLM。它简化了 RL 训练管线，降低了内存需求，并已被证明能提升推理能力——它特别用于训练 DeepSeek-R1。

VeRL 如何与 vLLM 集成？

VeRL 在 RL 训练期间使用 vLLM 作为其推理引擎，为 rollout 阶段实现高效的 token 生成。这种紧密的集成意味着行动者模型使用 vLLM 优化的批处理和 KV-cache 管理来生成响应，然后 VeRL 计算奖励并更新模型权重。

VeRL 支持哪些分布式训练基础设施？

VeRL 支持多节点训练，具备张量并行、管线并行和数据并行能力。它与 Ray 集成以进行集群编排，并支持 FSDP（完全分片数据并行）和 ZeRO-3 以在 GPU 间进行模型分片。

VeRL 在字节跳动的生产环境中使用吗？

是的。VeRL 是驱动字节跳动内部 LLM 训练管线的 RL 框架，包括开发豆包（Doubao），字节跳动的旗舰 AI 助手。开源版本反映了生产环境中大规模使用的相同代码和架构。

VeRL 可以用于 RLHF 吗？

是的，VeRL 通过其 PPO 实现支持 RLHF（人类反馈强化学习），也通过 GRPO 支持 RLAIF（AI 反馈强化学习）。该框架设计为可与任何奖励模型搭配使用，无论是从人类偏好训练的还是 LLM 生成的反馈。