VeRL: Framework de Aprendizaje por Refuerzo de ByteDance para LLMs

Q: "Qué es VeRL?"

"VeRL (Voltron Reinforcement Learning) es el framework de código abierto de ByteDance para aplicar aprendizaje por refuerzo al entrenamiento de grandes modelos de lenguaje. Admite PPO, GRPO y otros algoritmos RL con capacidades de entrenamiento distribuido e integración nativa con vLLM para inferencia eficiente durante el entrenamiento."

Q: "Qué es GRPO y por qué es importante?"

"GRPO (Optimización de Política Relativa a Grupo) es un algoritmo RL que optimiza LLMs utilizando comparaciones de recompensas agrupadas en lugar de un modelo crítico separado. Simplifica el pipeline de entrenamiento RL, reduce los requisitos de memoria y ha demostrado mejorar las capacidades de razonamiento -- fue utilizado notablemente en el entrenamiento de DeepSeek-R1."

Q: "Cómo se integra VeRL con vLLM?"

"VeRL utiliza vLLM como su motor de inferencia durante el entrenamiento RL, permitiendo la generación eficiente de tokens para la fase de rollout. Esta integración estrecha significa que el modelo actor genera respuestas utilizando el procesamiento por lotes optimizado y la gestión de caché KV de vLLM, luego VeRL calcula las recompensas y actualiza los pesos del modelo."

Q: "Qué infraestructura de entrenamiento distribuido admite VeRL?"

"VeRL admite entrenamiento multi-nodo con paralelismo tensorial, paralelismo de pipeline y paralelismo de datos. Se integra con Ray para orquestación de clústeres y admite tanto FSDP (Paralelismo de Datos Completamente Fragmentado) como ZeRO-3 para fragmentación de modelos entre GPUs."

Q: "Se usa VeRL en producción en ByteDance?"

"Sí. VeRL es el framework RL que impulsa los pipelines de entrenamiento LLM internos de ByteDance, incluido el desarrollo de Doubao (豆包), el asistente AI insignia de ByteDance. El lanzamiento de código abierto refleja el mismo código y arquitectura utilizados en producción a escala."

Q: "Puede usarse VeRL para RLHF?"

"Sí, VeRL admite RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana) a través de su implementación PPO, así como RLAIF (RL a partir de Retroalimentación de IA) a través de GRPO. El framework está diseñado para funcionar con cualquier modelo de recompensa, ya sea entrenado a partir de preferencias humanas o retroalimentación generada por LLM."

VeRL es el framework de código abierto de ByteDance para entrenamiento RL de LLMs que admite PPO, GRPO y entrenamiento distribuido con integración vLLM.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 05, 2026 12 min de lectura

La frontera más emocionante en la investigación de grandes modelos de lenguaje en 2025-2026 no ha sido hacer los modelos más grandes. Ha sido hacerlos más inteligentes a través del aprendizaje por refuerzo. DeepSeek-R1 demostró que el entrenamiento RL – específicamente GRPO (Optimización de Política Relativa a Grupo) – puede mejorar drásticamente las capacidades de razonamiento de un modelo, permitiendo razonamiento de cadena de pensamiento, autocorrección y resolución estructurada de problemas que rivaliza con modelos mucho más grandes. ByteDance, una de las empresas de tecnología más grandes del mundo y creadora de TikTok y Douyin, ha estado aplicando estas mismas técnicas a escala para entrenar sus propios modelos. VeRL es el framework detrás de ese esfuerzo.

VeRL (Voltron Reinforcement Learning) es el framework de aprendizaje por refuerzo de código abierto de ByteDance diseñado específicamente para el entrenamiento de LLMs. Implementa algoritmos RL de vanguardia incluyendo PPO (Optimización de Política Próxima) y GRPO, se integra estrechamente con vLLM para inferencia eficiente durante el entrenamiento, y admite entrenamiento distribuido a través de cientos de GPUs. VeRL es el framework de producción que impulsa el desarrollo interno de LLMs de ByteDance, incluido el asistente AI Doubao (豆包).

Lo que hace significativo a VeRL es su enfoque en los desafíos prácticos del RL para LLMs. Entrenar un LLM con RL es sustancialmente más complejo que el ajuste fino supervisado. Requiere mantener múltiples copias del modelo (actor, referencia, recompensa y opcionalmente crítico), generar rollouts (respuestas a evaluar), calcular recompensas, actualizar pesos de política y orquestar todo esto en hardware distribuido. VeRL maneja esta complejidad con una arquitectura que separa claramente las preocupaciones mientras maximiza la utilización de GPU.

Arquitectura Central

La arquitectura de VeRL separa las tres fases críticas del entrenamiento RL – generación de rollouts, cálculo de recompensas y actualización de política – en componentes que pueden escalarse independientemente:

Componente	Función	Hardware	Tecnología Clave
Motor de Rollout	Generar respuestas del modelo para prompts de entrenamiento	GPUs de inferencia	Integración vLLM
Modelo de Recompensa	Puntuar respuestas generadas	GPUs de recompensa	Cualquier modelo de recompensa
Motor de Entrenamiento	Actualizar pesos de política usando algoritmo RL	GPUs de entrenamiento	PPO / GRPO
Planificador	Orquestar entrenamiento distribuido	CPU / Control	Clúster Ray

Pipeline de Entrenamiento

El siguiente diagrama ilustra cómo VeRL orquesta el bucle de entrenamiento RL en hardware distribuido:

flowchart TD
    subgraph Data[Pipeline de Datos]
        Dataset[Prompts de Entrenamiento]
        Buffer[Buffer de Experiencia]
    end

    subgraph Inference[Generación de Rollout]
        vLLM[Motor de Inferencia vLLM]
        Actor[Modelo Actor<br>Política a optimizar]
    end

    subgraph Reward[Cálculo de Recompensa]
        RM[Modelo de Recompensa]
        PRM[Modelo de Recompensa de Proceso<br>Opcional: Paso a paso]
    end

    subgraph Training[Motor de Entrenamiento]
        GRPO[GRPO<br>Optimización de Política Relativa a Grupo]
        PPO[PPO<br>Optimización de Política Próxima]
        Ref[Modelo de Referencia<br>Ancla de divergencia KL]
    end

    subgraph Storage[Pesos del Modelo]
        NewWeights[Política Actualizada]
        OldWeights[Política Actual]
    end

    Dataset --> vLLM
    vLLM --> Actor
    Actor -->|Respuestas generadas| Buffer
    Buffer --> RM
    Buffer --> PRM
    RM -->|Puntuaciones de recompensa| GRPO
    PRM -->|Recompensas de paso| GRPO
    GRPO --> NewWeights
    NewWeights --> Actor
    Ref -->|Penalización KL| GRPO

Las tres fases – generación de rollouts (izquierda), cálculo de recompensas (centro) y actualización de política (derecha) – pueden ser pipelineadas para que mientras un lote de prompts está siendo evaluado para recompensas, el siguiente lote ya esté generando rollouts. Esta ejecución superpuesta maximiza la utilización de GPU y minimiza el tiempo de pared por iteración de entrenamiento.

Comparación de Algoritmos RL

VeRL implementa múltiples algoritmos RL, cada uno adecuado para diferentes objetivos de entrenamiento:

Algoritmo	Estructura de Recompensa	Crítico Necesario	Memoria	Mejor Para
PPO	Valores de recompensa absolutos	Sí	Más alta	RLHF con modelo de recompensa aprendido
GRPO	Recompensas relativas dentro del grupo	No	Más baja	Mejora de razonamiento (como R1)
REINFORCE	Señal de recompensa directa	No	Más baja	Optimización simple de preferencias
DPO	Preferencias por pares	No	Más baja	Aprendizaje directo de preferencias

GRPO se ha convertido en el algoritmo destacado en 2025-2026, principalmente por su papel en el entrenamiento de DeepSeek-R1 y modelos similares centrados en el razonamiento. Al puntuar grupos de completaciones de forma relativa entre sí en lugar de contra una escala absoluta, GRPO simplifica el entrenamiento y elimina la necesidad de un modelo crítico separado.

Comparación de Entrenamiento Distribuido

Capacidades de entrenamiento distribuido de VeRL en comparación con otros frameworks RL:

Característica	VeRL	TRL	OpenRLHF	DeepSpeed RL
Integración vLLM	Nativa	Ninguna	Parcial	Ninguna
Paralelismo tensorial	Sí	No	Sí	Sí
Paralelismo de pipeline	Sí	No	Sí	Sí
Optimización ZeRO	Sí	Sí	Sí	Sí
Soporte GRPO	Nativo	Complemento	Complemento	Ninguno
Probado en producción	Sí (ByteDance)	Limitado	Sí	Sí

Comenzando

El repositorio de GitHub de VeRL proporciona instrucciones de instalación, guías de configuración y scripts de entrenamiento de ejemplo. El proyecto admite tanto desarrollo en un solo nodo (para pruebas con modelos más pequeños) como despliegue de producción multi-nodo:

# Instalar VeRL
pip install verl

# Lanzar un experimento de entrenamiento
python examples/train_ppo.py --model Qwen2.5-7B --algorithm grpo

El motor de inferencia vLLM es también una dependencia clave para el pipeline de generación de rollouts de VeRL.

FAQ

Qué es VeRL?

VeRL (Voltron Reinforcement Learning) es el framework de código abierto de ByteDance para aplicar aprendizaje por refuerzo al entrenamiento de grandes modelos de lenguaje. Admite PPO, GRPO y otros algoritmos RL con capacidades de entrenamiento distribuido e integración nativa con vLLM para inferencia eficiente durante el entrenamiento.

Qué es GRPO y por qué es importante?

GRPO (Optimización de Política Relativa a Grupo) es un algoritmo RL que optimiza LLMs utilizando comparaciones de recompensas agrupadas en lugar de un modelo crítico separado. Simplifica el pipeline de entrenamiento RL, reduce los requisitos de memoria y ha demostrado mejorar las capacidades de razonamiento – fue utilizado notablemente en el entrenamiento de DeepSeek-R1.

Cómo se integra VeRL con vLLM?

VeRL utiliza vLLM como su motor de inferencia durante el entrenamiento RL, permitiendo la generación eficiente de tokens para la fase de rollout. Esta integración estrecha significa que el modelo actor genera respuestas utilizando el procesamiento por lotes optimizado y la gestión de caché KV de vLLM, luego VeRL calcula las recompensas y actualiza los pesos del modelo.

Qué infraestructura de entrenamiento distribuido admite VeRL?

VeRL admite entrenamiento multi-nodo con paralelismo tensorial, paralelismo de pipeline y paralelismo de datos. Se integra con Ray para orquestación de clústeres y admite tanto FSDP (Paralelismo de Datos Completamente Fragmentado) como ZeRO-3 para fragmentación de modelos entre GPUs.

Se usa VeRL en producción en ByteDance?

Sí. VeRL es el framework RL que impulsa los pipelines de entrenamiento LLM internos de ByteDance, incluido el desarrollo de Doubao (豆包), el asistente AI insignia de ByteDance. El lanzamiento de código abierto refleja el mismo código y arquitectura utilizados en producción a escala.

Puede usarse VeRL para RLHF?

Sí, VeRL admite RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana) a través de su implementación PPO, así como RLAIF (RL a partir de Retroalimentación de IA) a través de GRPO. El framework está diseñado para funcionar con cualquier modelo de recompensa, ya sea entrenado a partir de preferencias humanas o retroalimentación generada por LLM.

Lecturas Adicionales

Repositorio de GitHub de VeRL – Código fuente, documentación y ejemplos de entrenamiento
DeepSeek-R1: Aprendizaje por Refuerzo para Razonamiento – El artículo que popularizó GRPO para razonamiento LLM
vLLM: Servicio de LLM de Alto Rendimiento – El motor de inferencia integrado con VeRL
Ray Computación Distribuida – Framework de orquestación de clústeres utilizado por VeRL