AI

TinyZero: Reproduciendo el Razonamiento de DeepSeek R1-Zero con RL por Menos de $30

TinyZero es una reproducción mínima de DeepSeek R1-Zero usando aprendizaje por refuerzo y el framework veRL, demostrando razonamiento emergente en modelos de lenguaje pequeños.

Keeping this site alive takes effort — your support means everything.
無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分! 無程式碼也能輕鬆打造專業LINE官方帳號!一鍵導入模板,讓AI助你行銷加分!
TinyZero: Reproduciendo el Razonamiento de DeepSeek R1-Zero con RL por Menos de $30

DeepSeek R1-Zero fue ampliamente considerado un gran avance cuando se lanzó en enero de 2025. El modelo demostró que el aprendizaje por refuerzo puro podía producir razonamiento avanzado de cadena de pensamiento, autocorrección y sorprendentes “momentos ajá”. TinyZero de Jiayi Pan rompe por completo esa suposición.

TinyZero es una reproducción mínima y de código abierto de la metodología DeepSeek R1-Zero que se ejecuta en una sola GPU por menos de $30 en costos de cómputo en la nube. Usando el framework veRL, TinyZero aplica PPO a modelos base pequeños como Qwen-2.5-1.5B-Instruct y Qwen-2.5-7B.

Repositorio: github.com/Jiayi-Pan/TinyZero


Comparación

AspectoTinyZeroDeepSeek R1-Zero
Modelo BaseQwen-2.5-1.5B / 7BDeepSeek-V3 (671B)
FrameworkveRL (código abierto)Propietario
Costo de EntrenamientoMenos de $30Millones de dólares
GPUUna sola GPUGrandes clusters
Algoritmo RLPPOGRPO
Comportamientos EmergentesAuto-verificación, reflexión, “momentos ajá”Auto-verificación, reflexión, “momentos ajá”

Comportamientos Emergentes

ComportamientoQwen-2.5-0.5BQwen-2.5-1.5BQwen-2.5-7B
Auto-verificaciónRaroFrecuenteConsistente
RetrocesoAusenteOcasionalFrecuente
CoT Extendido (>200 tokens)No
Exploración multi-estrategiaNoRaroFrecuente
“Momento ajá”NoOcasional
Costo (A100 80GB)~$5~$15~$30

Arquitectura

Costos

ComponenteModelo 1.5BModelo 7B
GPU Nube~$1.10/hora~$1.10/hora
Pasos de entrenamiento~200~300
Tiempo~6 horas~24 horas
Total estimado~$7~$27

FAQ

Qué es TinyZero? Reproducción mínima de código abierto de DeepSeek R1-Zero que demuestra razonamiento emergente en modelos de 1.5B parámetros por menos de $30.

Cómo reproduce R1-Zero? Aplica PPO a modelos Qwen-2.5 mediante veRL. El modelo descubre patrones avanzados de razonamiento sin ajuste fino supervisado.

Cómo cuesta menos de $30? Usa modelos pequeños entrenados 200-400 pasos en una sola GPU. Costo total entre $15 y $30.

Comportamientos emergentes? Auto-verificación, retroceso, reflexión, CoT extendido y “momentos ajá”.

Hardware? Inferencia: 8GB VRAM. Entrenamiento 1.5B: A100 80GB o RTX 4090.

Lecturas Adicionales

TAG
CATEGORIES