Tags

VeRL

IA May 05, 2026

VeRL: Framework de Aprendizaje por Refuerzo de ByteDance para LLMs

La frontera más emocionante en la investigación de grandes modelos de lenguaje en 2025-2026 no ha sido hacer los modelos más grandes. Ha sido …

AI May 03, 2026

TinyZero: Reproduciendo el Razonamiento de DeepSeek R1-Zero con RL por Menos de $30

DeepSeek R1-Zero fue ampliamente considerado un gran avance cuando se lanzó en enero de 2025. El modelo demostró que el aprendizaje por refuerzo …