TinyZero

AI May 03, 2026

TinyZero: Reproduciendo el Razonamiento de DeepSeek R1-Zero con RL por Menos de $30

DeepSeek R1-Zero fue ampliamente considerado un gran avance cuando se lanzó en enero de 2025. El modelo demostró que el aprendizaje por refuerzo …