TinyZero

AI May 03, 2026

TinyZero：用不到 30 美元重現 DeepSeek R1-Zero 的強化學習推理

DeepSeek R1-Zero 在 2025 年 1 月發布時被廣泛認為是一項突破。該模型證明了純粹的強化學習——無需任何人類推理範例的監督式微調——就能產生高級思維鏈推理、自我修正，甚至令人驚訝的「啊哈時刻」，模型在對話中途獨立發現了更好的推理策略。但問題在於：訓練基礎設施被認為需要大 …