TinyZero:用不到 30 美元重現 DeepSeek R1-Zero 的強化學習推理
DeepSeek R1-Zero 在 2025 年 1 月發布時被廣泛認為是一項突破。該模型證明了純粹的強化學習——無需任何人類推理範例的監督式微調——就能產生高級思維鏈推理、自我修正,甚至令人驚訝的「啊哈時刻」,模型在對話中途獨立發現了更好的推理策略。但問題在於:訓練基礎設施被認為需要大 …
DeepSeek R1-Zero 在 2025 年 1 月發布時被廣泛認為是一項突破。該模型證明了純粹的強化學習——無需任何人類推理範例的監督式微調——就能產生高級思維鏈推理、自我修正,甚至令人驚訝的「啊哈時刻」,模型在對話中途獨立發現了更好的推理策略。但問題在於:訓練基礎設施被認為需要大 …