DeepSeek R1-Zero fue ampliamente considerado un gran avance cuando se lanzó en enero de 2025. El modelo demostró que el aprendizaje por refuerzo puro podía producir razonamiento avanzado de cadena de pensamiento, autocorrección y sorprendentes “momentos ajá”. TinyZero de Jiayi Pan rompe por completo esa suposición.
TinyZero es una reproducción mínima y de código abierto de la metodología DeepSeek R1-Zero que se ejecuta en una sola GPU por menos de $30 en costos de cómputo en la nube. Usando el framework veRL, TinyZero aplica PPO a modelos base pequeños como Qwen-2.5-1.5B-Instruct y Qwen-2.5-7B.
Repositorio: github.com/Jiayi-Pan/TinyZero
Comparación
| Aspecto | TinyZero | DeepSeek R1-Zero |
|---|---|---|
| Modelo Base | Qwen-2.5-1.5B / 7B | DeepSeek-V3 (671B) |
| Framework | veRL (código abierto) | Propietario |
| Costo de Entrenamiento | Menos de $30 | Millones de dólares |
| GPU | Una sola GPU | Grandes clusters |
| Algoritmo RL | PPO | GRPO |
| Comportamientos Emergentes | Auto-verificación, reflexión, “momentos ajá” | Auto-verificación, reflexión, “momentos ajá” |
Comportamientos Emergentes
| Comportamiento | Qwen-2.5-0.5B | Qwen-2.5-1.5B | Qwen-2.5-7B |
|---|---|---|---|
| Auto-verificación | Raro | Frecuente | Consistente |
| Retroceso | Ausente | Ocasional | Frecuente |
| CoT Extendido (>200 tokens) | No | Sí | Sí |
| Exploración multi-estrategia | No | Raro | Frecuente |
| “Momento ajá” | No | Ocasional | Sí |
| Costo (A100 80GB) | ~$5 | ~$15 | ~$30 |
Arquitectura
flowchart LR
A[Modelo Base<br/>Qwen-2.5] --> B[Tarea de Cuenta Regresiva<br/>Prompt]
B --> C[Modelo Genera<br/>Respuesta con CoT]
C --> D[Cálculo de Recompensa<br/>Correcto = +1, Incorrecto = 0]
D --> E[Actualización PPO<br/>mediante veRL]
E --> BCostos
| Componente | Modelo 1.5B | Modelo 7B |
|---|---|---|
| GPU Nube | ~$1.10/hora | ~$1.10/hora |
| Pasos de entrenamiento | ~200 | ~300 |
| Tiempo | ~6 horas | ~24 horas |
| Total estimado | ~$7 | ~$27 |
FAQ
Qué es TinyZero? Reproducción mínima de código abierto de DeepSeek R1-Zero que demuestra razonamiento emergente en modelos de 1.5B parámetros por menos de $30.
Cómo reproduce R1-Zero? Aplica PPO a modelos Qwen-2.5 mediante veRL. El modelo descubre patrones avanzados de razonamiento sin ajuste fino supervisado.
Cómo cuesta menos de $30? Usa modelos pequeños entrenados 200-400 pasos en una sola GPU. Costo total entre $15 y $30.
Comportamientos emergentes? Auto-verificación, retroceso, reflexión, CoT extendido y “momentos ajá”.
Hardware? Inferencia: 8GB VRAM. Entrenamiento 1.5B: A100 80GB o RTX 4090.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!