IA

VeRL: Framework de Aprendizaje por Refuerzo de ByteDance para LLMs

VeRL es el framework de código abierto de ByteDance para entrenamiento RL de LLMs que admite PPO, GRPO y entrenamiento distribuido con integración vLLM.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
VeRL: Framework de Aprendizaje por Refuerzo de ByteDance para LLMs

La frontera más emocionante en la investigación de grandes modelos de lenguaje en 2025-2026 no ha sido hacer los modelos más grandes. Ha sido hacerlos más inteligentes a través del aprendizaje por refuerzo. DeepSeek-R1 demostró que el entrenamiento RL – específicamente GRPO (Optimización de Política Relativa a Grupo) – puede mejorar drásticamente las capacidades de razonamiento de un modelo, permitiendo razonamiento de cadena de pensamiento, autocorrección y resolución estructurada de problemas que rivaliza con modelos mucho más grandes. ByteDance, una de las empresas de tecnología más grandes del mundo y creadora de TikTok y Douyin, ha estado aplicando estas mismas técnicas a escala para entrenar sus propios modelos. VeRL es el framework detrás de ese esfuerzo.

VeRL (Voltron Reinforcement Learning) es el framework de aprendizaje por refuerzo de código abierto de ByteDance diseñado específicamente para el entrenamiento de LLMs. Implementa algoritmos RL de vanguardia incluyendo PPO (Optimización de Política Próxima) y GRPO, se integra estrechamente con vLLM para inferencia eficiente durante el entrenamiento, y admite entrenamiento distribuido a través de cientos de GPUs. VeRL es el framework de producción que impulsa el desarrollo interno de LLMs de ByteDance, incluido el asistente AI Doubao (豆包).

Lo que hace significativo a VeRL es su enfoque en los desafíos prácticos del RL para LLMs. Entrenar un LLM con RL es sustancialmente más complejo que el ajuste fino supervisado. Requiere mantener múltiples copias del modelo (actor, referencia, recompensa y opcionalmente crítico), generar rollouts (respuestas a evaluar), calcular recompensas, actualizar pesos de política y orquestar todo esto en hardware distribuido. VeRL maneja esta complejidad con una arquitectura que separa claramente las preocupaciones mientras maximiza la utilización de GPU.

Arquitectura Central

La arquitectura de VeRL separa las tres fases críticas del entrenamiento RL – generación de rollouts, cálculo de recompensas y actualización de política – en componentes que pueden escalarse independientemente:

ComponenteFunciónHardwareTecnología Clave
Motor de RolloutGenerar respuestas del modelo para prompts de entrenamientoGPUs de inferenciaIntegración vLLM
Modelo de RecompensaPuntuar respuestas generadasGPUs de recompensaCualquier modelo de recompensa
Motor de EntrenamientoActualizar pesos de política usando algoritmo RLGPUs de entrenamientoPPO / GRPO
PlanificadorOrquestar entrenamiento distribuidoCPU / ControlClúster Ray

Pipeline de Entrenamiento

El siguiente diagrama ilustra cómo VeRL orquesta el bucle de entrenamiento RL en hardware distribuido:

Las tres fases – generación de rollouts (izquierda), cálculo de recompensas (centro) y actualización de política (derecha) – pueden ser pipelineadas para que mientras un lote de prompts está siendo evaluado para recompensas, el siguiente lote ya esté generando rollouts. Esta ejecución superpuesta maximiza la utilización de GPU y minimiza el tiempo de pared por iteración de entrenamiento.

Comparación de Algoritmos RL

VeRL implementa múltiples algoritmos RL, cada uno adecuado para diferentes objetivos de entrenamiento:

AlgoritmoEstructura de RecompensaCrítico NecesarioMemoriaMejor Para
PPOValores de recompensa absolutosMás altaRLHF con modelo de recompensa aprendido
GRPORecompensas relativas dentro del grupoNoMás bajaMejora de razonamiento (como R1)
REINFORCESeñal de recompensa directaNoMás bajaOptimización simple de preferencias
DPOPreferencias por paresNoMás bajaAprendizaje directo de preferencias

GRPO se ha convertido en el algoritmo destacado en 2025-2026, principalmente por su papel en el entrenamiento de DeepSeek-R1 y modelos similares centrados en el razonamiento. Al puntuar grupos de completaciones de forma relativa entre sí en lugar de contra una escala absoluta, GRPO simplifica el entrenamiento y elimina la necesidad de un modelo crítico separado.

Comparación de Entrenamiento Distribuido

Capacidades de entrenamiento distribuido de VeRL en comparación con otros frameworks RL:

CaracterísticaVeRLTRLOpenRLHFDeepSpeed RL
Integración vLLMNativaNingunaParcialNinguna
Paralelismo tensorialNo
Paralelismo de pipelineNo
Optimización ZeRO
Soporte GRPONativoComplementoComplementoNinguno
Probado en producciónSí (ByteDance)Limitado

Comenzando

El repositorio de GitHub de VeRL proporciona instrucciones de instalación, guías de configuración y scripts de entrenamiento de ejemplo. El proyecto admite tanto desarrollo en un solo nodo (para pruebas con modelos más pequeños) como despliegue de producción multi-nodo:

# Instalar VeRL
pip install verl

# Lanzar un experimento de entrenamiento
python examples/train_ppo.py --model Qwen2.5-7B --algorithm grpo

El motor de inferencia vLLM es también una dependencia clave para el pipeline de generación de rollouts de VeRL.

FAQ

Qué es VeRL?

VeRL (Voltron Reinforcement Learning) es el framework de código abierto de ByteDance para aplicar aprendizaje por refuerzo al entrenamiento de grandes modelos de lenguaje. Admite PPO, GRPO y otros algoritmos RL con capacidades de entrenamiento distribuido e integración nativa con vLLM para inferencia eficiente durante el entrenamiento.

Qué es GRPO y por qué es importante?

GRPO (Optimización de Política Relativa a Grupo) es un algoritmo RL que optimiza LLMs utilizando comparaciones de recompensas agrupadas en lugar de un modelo crítico separado. Simplifica el pipeline de entrenamiento RL, reduce los requisitos de memoria y ha demostrado mejorar las capacidades de razonamiento – fue utilizado notablemente en el entrenamiento de DeepSeek-R1.

Cómo se integra VeRL con vLLM?

VeRL utiliza vLLM como su motor de inferencia durante el entrenamiento RL, permitiendo la generación eficiente de tokens para la fase de rollout. Esta integración estrecha significa que el modelo actor genera respuestas utilizando el procesamiento por lotes optimizado y la gestión de caché KV de vLLM, luego VeRL calcula las recompensas y actualiza los pesos del modelo.

Qué infraestructura de entrenamiento distribuido admite VeRL?

VeRL admite entrenamiento multi-nodo con paralelismo tensorial, paralelismo de pipeline y paralelismo de datos. Se integra con Ray para orquestación de clústeres y admite tanto FSDP (Paralelismo de Datos Completamente Fragmentado) como ZeRO-3 para fragmentación de modelos entre GPUs.

Se usa VeRL en producción en ByteDance?

Sí. VeRL es el framework RL que impulsa los pipelines de entrenamiento LLM internos de ByteDance, incluido el desarrollo de Doubao (豆包), el asistente AI insignia de ByteDance. El lanzamiento de código abierto refleja el mismo código y arquitectura utilizados en producción a escala.

Puede usarse VeRL para RLHF?

Sí, VeRL admite RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana) a través de su implementación PPO, así como RLAIF (RL a partir de Retroalimentación de IA) a través de GRPO. El framework está diseñado para funcionar con cualquier modelo de recompensa, ya sea entrenado a partir de preferencias humanas o retroalimentación generada por LLM.


Lecturas Adicionales

TAG
CATEGORIES