AI

VeRL:字节跳动的 LLM 强化学习框架

VeRL 是字节跳动的开源 LLM 训练 RL 框架,支持 PPO、GRPO 以及与 vLLM 集成的分布式训练。

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
VeRL:字节跳动的 LLM 强化学习框架

2025-2026 年大型语言模型研究中最令人兴奋的前沿并不是让模型变得更大。而是通过强化学习让它们变得更聪明。DeepSeek-R1 证明了 RL 训练——特别是 GRPO(群组相对策略优化)——可以显著提升模型的推理能力,实现与更大模型相匹敌的链式思考推理、自我修正和结构化问题解决。字节跳动(ByteDance),全球最大的科技公司之一,TikTok 和抖音的创作者,一直在大规模应用这些相同技术来训练自己的模型。VeRL 就是这项努力背后的框架。

VeRL (Voltron Reinforcement Learning) 是字节跳动的开源强化学习框架,专门为 LLM 训练设计。它实现了最先进的 RL 算法,包括 PPO(近端策略优化)和 GRPO,与 vLLM 紧密集成以实现训练期间的高效推理,并支持在数百个 GPU 上的分布式训练。VeRL 是驱动字节跳动内部 LLM 开发(包括豆包 AI 助手)的生产框架。

VeRL 的重要性在于它专注于 LLM 的 RL 实际挑战。使用 RL 训练 LLM 比监督式微调复杂得多。它需要维护多个模型副本(行动者、参考、奖励,以及可选的评论家),生成 rollout(要评估的响应),计算奖励,更新策略权重,并在分布式硬件上编排这一切。VeRL 通过一种清晰分离关注点同时最大化 GPU 利用率的架构来处理这种复杂性。

核心架构

VeRL 的架构将 RL 训练的三个关键阶段——rollout 生成、奖励计算和策略更新——分离为可独立扩展的组件:

组件功能硬件关键技术
Rollout 引擎为训练提示生成模型响应推理 GPUvLLM 集成
奖励模型对生成的响应评分奖励 GPU任何奖励模型
训练引擎使用 RL 算法更新策略权重训练 GPUPPO / GRPO
调度器编排分布式训练CPU / 控制Ray 集群

训练管线

下图说明了 VeRL 如何在分布式硬件上编排 RL 训练循环:

这三个阶段——rollout 生成(左)、奖励计算(中)和策略更新(右)——可以管线化,使得当一批提示正在被评估奖励时,下一批已经在生成 rollout。这种重叠执行最大化 GPU 利用率并最小化每次训练迭代的实际时间。

RL 算法比较

VeRL 实现了多种 RL 算法,每种适用于不同的训练目标:

算法奖励结构需要评论家内存最适合
PPO绝对奖励值较高使用学习奖励模型的 RLHF
GRPO群组内相对奖励较低推理改进(如 R1)
REINFORCE直接奖励信号最低简单偏好优化
DPO成对偏好最低直接偏好学习

GRPO 在 2025-2026 年已成为突出的算法,主要是因为它在训练 DeepSeek-R1 和类似推理模型中的作用。通过对完成群组进行相对评分而非使用绝对标准,GRPO 简化了训练并消除了对单独评论家模型的需求。

分布式训练比较

VeRL 的分布式训练能力与其他 RL 框架的比较:

功能VeRLTRLOpenRLHFDeepSpeed RL
vLLM 集成原生部分
张量并行
管线并行
ZeRO 优化
GRPO 支持原生附加附加
生产验证是(字节跳动)有限

开始使用

VeRL GitHub 仓库 提供安装说明、配置指南和示例训练脚本。该项目支持单节点开发(用于使用较小模型进行测试)和多节点生产部署:

# 安装 VeRL
pip install verl

# 启动训练实验
python examples/train_ppo.py --model Qwen2.5-7B --algorithm grpo

vLLM 推理引擎 也是 VeRL rollout 生成管线的关键依赖。

常见问题

什么是 VeRL?

VeRL (Voltron Reinforcement Learning) 是字节跳动的开源框架,用于将强化学习应用于大型语言模型训练。它支持 PPO、GRPO 及其他 RL 算法,具备分布式训练能力,并原生集成 vLLM 以实现训练期间的高效推理。

什么是 GRPO,为什么它很重要?

GRPO(群组相对策略优化)是一种 RL 算法,使用群组奖励比较而非单独的评论家模型来优化 LLM。它简化了 RL 训练管线,降低了内存需求,并已被证明能提升推理能力——它特别用于训练 DeepSeek-R1。

VeRL 如何与 vLLM 集成?

VeRL 在 RL 训练期间使用 vLLM 作为其推理引擎,为 rollout 阶段实现高效的 token 生成。这种紧密的集成意味着行动者模型使用 vLLM 优化的批处理和 KV-cache 管理来生成响应,然后 VeRL 计算奖励并更新模型权重。

VeRL 支持哪些分布式训练基础设施?

VeRL 支持多节点训练,具备张量并行、管线并行和数据并行能力。它与 Ray 集成以进行集群编排,并支持 FSDP(完全分片数据并行)和 ZeRO-3 以在 GPU 间进行模型分片。

VeRL 在字节跳动的生产环境中使用吗?

是的。VeRL 是驱动字节跳动内部 LLM 训练管线的 RL 框架,包括开发豆包(Doubao),字节跳动的旗舰 AI 助手。开源版本反映了生产环境中大规模使用的相同代码和架构。

VeRL 可以用于 RLHF 吗?

是的,VeRL 通过其 PPO 实现支持 RLHF(人类反馈强化学习),也通过 GRPO 支持 RLAIF(AI 反馈强化学习)。该框架设计为可与任何奖励模型搭配使用,无论是从人类偏好训练的还是 LLM 生成的反馈。


延伸阅读

TAG
CATEGORIES