La frontera más emocionante en la investigación de grandes modelos de lenguaje en 2025-2026 no ha sido hacer los modelos más grandes. Ha sido hacerlos más inteligentes a través del aprendizaje por refuerzo. DeepSeek-R1 demostró que el entrenamiento RL – específicamente GRPO (Optimización de Política Relativa a Grupo) – puede mejorar drásticamente las capacidades de razonamiento de un modelo, permitiendo razonamiento de cadena de pensamiento, autocorrección y resolución estructurada de problemas que rivaliza con modelos mucho más grandes. ByteDance, una de las empresas de tecnología más grandes del mundo y creadora de TikTok y Douyin, ha estado aplicando estas mismas técnicas a escala para entrenar sus propios modelos. VeRL es el framework detrás de ese esfuerzo.
VeRL (Voltron Reinforcement Learning) es el framework de aprendizaje por refuerzo de código abierto de ByteDance diseñado específicamente para el entrenamiento de LLMs. Implementa algoritmos RL de vanguardia incluyendo PPO (Optimización de Política Próxima) y GRPO, se integra estrechamente con vLLM para inferencia eficiente durante el entrenamiento, y admite entrenamiento distribuido a través de cientos de GPUs. VeRL es el framework de producción que impulsa el desarrollo interno de LLMs de ByteDance, incluido el asistente AI Doubao (豆包).
Lo que hace significativo a VeRL es su enfoque en los desafíos prácticos del RL para LLMs. Entrenar un LLM con RL es sustancialmente más complejo que el ajuste fino supervisado. Requiere mantener múltiples copias del modelo (actor, referencia, recompensa y opcionalmente crítico), generar rollouts (respuestas a evaluar), calcular recompensas, actualizar pesos de política y orquestar todo esto en hardware distribuido. VeRL maneja esta complejidad con una arquitectura que separa claramente las preocupaciones mientras maximiza la utilización de GPU.
Arquitectura Central
La arquitectura de VeRL separa las tres fases críticas del entrenamiento RL – generación de rollouts, cálculo de recompensas y actualización de política – en componentes que pueden escalarse independientemente:
| Componente | Función | Hardware | Tecnología Clave |
|---|---|---|---|
| Motor de Rollout | Generar respuestas del modelo para prompts de entrenamiento | GPUs de inferencia | Integración vLLM |
| Modelo de Recompensa | Puntuar respuestas generadas | GPUs de recompensa | Cualquier modelo de recompensa |
| Motor de Entrenamiento | Actualizar pesos de política usando algoritmo RL | GPUs de entrenamiento | PPO / GRPO |
| Planificador | Orquestar entrenamiento distribuido | CPU / Control | Clúster Ray |
Pipeline de Entrenamiento
El siguiente diagrama ilustra cómo VeRL orquesta el bucle de entrenamiento RL en hardware distribuido:
flowchart TD
subgraph Data[Pipeline de Datos]
Dataset[Prompts de Entrenamiento]
Buffer[Buffer de Experiencia]
end
subgraph Inference[Generación de Rollout]
vLLM[Motor de Inferencia vLLM]
Actor[Modelo Actor<br>Política a optimizar]
end
subgraph Reward[Cálculo de Recompensa]
RM[Modelo de Recompensa]
PRM[Modelo de Recompensa de Proceso<br>Opcional: Paso a paso]
end
subgraph Training[Motor de Entrenamiento]
GRPO[GRPO<br>Optimización de Política Relativa a Grupo]
PPO[PPO<br>Optimización de Política Próxima]
Ref[Modelo de Referencia<br>Ancla de divergencia KL]
end
subgraph Storage[Pesos del Modelo]
NewWeights[Política Actualizada]
OldWeights[Política Actual]
end
Dataset --> vLLM
vLLM --> Actor
Actor -->|Respuestas generadas| Buffer
Buffer --> RM
Buffer --> PRM
RM -->|Puntuaciones de recompensa| GRPO
PRM -->|Recompensas de paso| GRPO
GRPO --> NewWeights
NewWeights --> Actor
Ref -->|Penalización KL| GRPOLas tres fases – generación de rollouts (izquierda), cálculo de recompensas (centro) y actualización de política (derecha) – pueden ser pipelineadas para que mientras un lote de prompts está siendo evaluado para recompensas, el siguiente lote ya esté generando rollouts. Esta ejecución superpuesta maximiza la utilización de GPU y minimiza el tiempo de pared por iteración de entrenamiento.
Comparación de Algoritmos RL
VeRL implementa múltiples algoritmos RL, cada uno adecuado para diferentes objetivos de entrenamiento:
| Algoritmo | Estructura de Recompensa | Crítico Necesario | Memoria | Mejor Para |
|---|---|---|---|---|
| PPO | Valores de recompensa absolutos | Sí | Más alta | RLHF con modelo de recompensa aprendido |
| GRPO | Recompensas relativas dentro del grupo | No | Más baja | Mejora de razonamiento (como R1) |
| REINFORCE | Señal de recompensa directa | No | Más baja | Optimización simple de preferencias |
| DPO | Preferencias por pares | No | Más baja | Aprendizaje directo de preferencias |
GRPO se ha convertido en el algoritmo destacado en 2025-2026, principalmente por su papel en el entrenamiento de DeepSeek-R1 y modelos similares centrados en el razonamiento. Al puntuar grupos de completaciones de forma relativa entre sí en lugar de contra una escala absoluta, GRPO simplifica el entrenamiento y elimina la necesidad de un modelo crítico separado.
Comparación de Entrenamiento Distribuido
Capacidades de entrenamiento distribuido de VeRL en comparación con otros frameworks RL:
| Característica | VeRL | TRL | OpenRLHF | DeepSpeed RL |
|---|---|---|---|---|
| Integración vLLM | Nativa | Ninguna | Parcial | Ninguna |
| Paralelismo tensorial | Sí | No | Sí | Sí |
| Paralelismo de pipeline | Sí | No | Sí | Sí |
| Optimización ZeRO | Sí | Sí | Sí | Sí |
| Soporte GRPO | Nativo | Complemento | Complemento | Ninguno |
| Probado en producción | Sí (ByteDance) | Limitado | Sí | Sí |
Comenzando
El repositorio de GitHub de VeRL proporciona instrucciones de instalación, guías de configuración y scripts de entrenamiento de ejemplo. El proyecto admite tanto desarrollo en un solo nodo (para pruebas con modelos más pequeños) como despliegue de producción multi-nodo:
# Instalar VeRL
pip install verl
# Lanzar un experimento de entrenamiento
python examples/train_ppo.py --model Qwen2.5-7B --algorithm grpo
El motor de inferencia vLLM es también una dependencia clave para el pipeline de generación de rollouts de VeRL.
FAQ
Qué es VeRL?
VeRL (Voltron Reinforcement Learning) es el framework de código abierto de ByteDance para aplicar aprendizaje por refuerzo al entrenamiento de grandes modelos de lenguaje. Admite PPO, GRPO y otros algoritmos RL con capacidades de entrenamiento distribuido e integración nativa con vLLM para inferencia eficiente durante el entrenamiento.
Qué es GRPO y por qué es importante?
GRPO (Optimización de Política Relativa a Grupo) es un algoritmo RL que optimiza LLMs utilizando comparaciones de recompensas agrupadas en lugar de un modelo crítico separado. Simplifica el pipeline de entrenamiento RL, reduce los requisitos de memoria y ha demostrado mejorar las capacidades de razonamiento – fue utilizado notablemente en el entrenamiento de DeepSeek-R1.
Cómo se integra VeRL con vLLM?
VeRL utiliza vLLM como su motor de inferencia durante el entrenamiento RL, permitiendo la generación eficiente de tokens para la fase de rollout. Esta integración estrecha significa que el modelo actor genera respuestas utilizando el procesamiento por lotes optimizado y la gestión de caché KV de vLLM, luego VeRL calcula las recompensas y actualiza los pesos del modelo.
Qué infraestructura de entrenamiento distribuido admite VeRL?
VeRL admite entrenamiento multi-nodo con paralelismo tensorial, paralelismo de pipeline y paralelismo de datos. Se integra con Ray para orquestación de clústeres y admite tanto FSDP (Paralelismo de Datos Completamente Fragmentado) como ZeRO-3 para fragmentación de modelos entre GPUs.
Se usa VeRL en producción en ByteDance?
Sí. VeRL es el framework RL que impulsa los pipelines de entrenamiento LLM internos de ByteDance, incluido el desarrollo de Doubao (豆包), el asistente AI insignia de ByteDance. El lanzamiento de código abierto refleja el mismo código y arquitectura utilizados en producción a escala.
Puede usarse VeRL para RLHF?
Sí, VeRL admite RLHF (Aprendizaje por Refuerzo a partir de Retroalimentación Humana) a través de su implementación PPO, así como RLAIF (RL a partir de Retroalimentación de IA) a través de GRPO. El framework está diseñado para funcionar con cualquier modelo de recompensa, ya sea entrenado a partir de preferencias humanas o retroalimentación generada por LLM.
Lecturas Adicionales
- Repositorio de GitHub de VeRL – Código fuente, documentación y ejemplos de entrenamiento
- DeepSeek-R1: Aprendizaje por Refuerzo para Razonamiento – El artículo que popularizó GRPO para razonamiento LLM
- vLLM: Servicio de LLM de Alto Rendimiento – El motor de inferencia integrado con VeRL
- Ray Computación Distribuida – Framework de orquestación de clústeres utilizado por VeRL
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!