"TinyZero es una reproducción mínima y de código abierto del enfoque de aprendizaje por refuerzo de DeepSeek R1-Zero para entrenar modelos de lenguaje a razonar. Creado por el investigador Jiayi Pan, demuestra que comportamientos de razonamiento emergente pueden surgir en modelos tan pequeños como 1.5B parámetros entrenados con RL en tareas de cuenta regresiva, todo por menos de $30 en costos de cómputo."

"Cómo reproduce TinyZero DeepSeek R1-Zero?"

"TinyZero usa el framework veRL para aplicar PPO a los modelos base Qwen-2.5-1.5B-Instruct y 7B. El modelo se entrena en una tarea de razonamiento matemático basada en cuenta regresiva donde debe combinar cuatro números usando operaciones aritméticas para alcanzar un objetivo. Mediante entrenamiento RL, el modelo descubre patrones avanzados de razonamiento sin ajuste fino supervisado."

"Cómo puede costar menos de $30 reproducir R1-Zero?"

"El entrenamiento usa modelos base pequeños entrenados por aproximadamente 200-400 pasos en una sola GPU. Usando una instancia en la nube alquilada con NVIDIA A100 o RTX 4090, el costo total de cómputo oscila entre $15 y $30."

"Qué comportamientos emergentes exhibe TinyZero?"

"Los modelos TinyZero desarrollan auto-verificación, retroceso y corrección al detectar errores, reflexión sobre resultados intermedios, razonamiento de cadena de pensamiento extendida, y comportamientos similares a un 'momento ajá' donde el modelo mejora repentinamente su estrategia de razonamiento."

"Qué hardware se necesita para ejecutar TinyZero?"

"Para inferencia, cualquier GPU moderna con al menos 8GB VRAM. Para entrenar el modelo 1.5B, un solo A100 80GB o RTX 4090 es adecuado."

TinyZero: Reproduciendo el Razonamiento de DeepSeek R1-Zero con RL por Menos de $30

TinyZero es una reproducción mínima de DeepSeek R1-Zero usando aprendizaje por refuerzo y el framework veRL, demostrando razonamiento emergente en modelos de lenguaje pequeños.

Keeping this site alive takes effort — your support means everything.

無程式碼也能輕鬆打造專業LINE官方帳號！一鍵導入模板，讓AI助你行銷加分！

Equipo Editorial May 03, 2026 2 min de lectura

DeepSeek R1-Zero fue ampliamente considerado un gran avance cuando se lanzó en enero de 2025. El modelo demostró que el aprendizaje por refuerzo puro podía producir razonamiento avanzado de cadena de pensamiento, autocorrección y sorprendentes “momentos ajá”. TinyZero de Jiayi Pan rompe por completo esa suposición.

TinyZero es una reproducción mínima y de código abierto de la metodología DeepSeek R1-Zero que se ejecuta en una sola GPU por menos de $30 en costos de cómputo en la nube. Usando el framework veRL, TinyZero aplica PPO a modelos base pequeños como Qwen-2.5-1.5B-Instruct y Qwen-2.5-7B.

Repositorio: github.com/Jiayi-Pan/TinyZero

Comparación

Aspecto	TinyZero	DeepSeek R1-Zero
Modelo Base	Qwen-2.5-1.5B / 7B	DeepSeek-V3 (671B)
Framework	veRL (código abierto)	Propietario
Costo de Entrenamiento	Menos de $30	Millones de dólares
GPU	Una sola GPU	Grandes clusters
Algoritmo RL	PPO	GRPO
Comportamientos Emergentes	Auto-verificación, reflexión, “momentos ajá”	Auto-verificación, reflexión, “momentos ajá”

Comportamientos Emergentes

Comportamiento	Qwen-2.5-0.5B	Qwen-2.5-1.5B	Qwen-2.5-7B
Auto-verificación	Raro	Frecuente	Consistente
Retroceso	Ausente	Ocasional	Frecuente
CoT Extendido (>200 tokens)	No	Sí	Sí
Exploración multi-estrategia	No	Raro	Frecuente
“Momento ajá”	No	Ocasional	Sí
Costo (A100 80GB)	~$5	~$15	~$30

Arquitectura

flowchart LR
    A[Modelo Base<br/>Qwen-2.5] --> B[Tarea de Cuenta Regresiva<br/>Prompt]
    B --> C[Modelo Genera<br/>Respuesta con CoT]
    C --> D[Cálculo de Recompensa<br/>Correcto = +1, Incorrecto = 0]
    D --> E[Actualización PPO<br/>mediante veRL]
    E --> B

Costos

Componente	Modelo 1.5B	Modelo 7B
GPU Nube	~$1.10/hora	~$1.10/hora
Pasos de entrenamiento	~200	~300
Tiempo	~6 horas	~24 horas
Total estimado	~$7	~$27

FAQ

Qué es TinyZero? Reproducción mínima de código abierto de DeepSeek R1-Zero que demuestra razonamiento emergente en modelos de 1.5B parámetros por menos de $30.

Cómo reproduce R1-Zero? Aplica PPO a modelos Qwen-2.5 mediante veRL. El modelo descubre patrones avanzados de razonamiento sin ajuste fino supervisado.

Cómo cuesta menos de $30? Usa modelos pequeños entrenados 200-400 pasos en una sola GPU. Costo total entre $15 y $30.

Comportamientos emergentes? Auto-verificación, retroceso, reflexión, CoT extendido y “momentos ajá”.

Hardware? Inferencia: 8GB VRAM. Entrenamiento 1.5B: A100 80GB o RTX 4090.

TinyZero: Reproduciendo el Razonamiento de DeepSeek R1-Zero con RL por Menos de $30

Comparación

Comportamientos Emergentes

Arquitectura

Costos

FAQ

Lecturas Adicionales

LATEST POST

Workday, Anthropic y LISC lanzan aceleradora de solopreneurs con IA

Sensor Tower adquiere AppMagic para reforzar su línea de análisis para pymes

Musk, Cook y Fink se espera que se unan a la delegación de Trump en Pekín esta s

TAG

CATEGORIES