Tags

TinyZero

TinyZero:用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理
AI

TinyZero:用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理

DeepSeek R1-Zero 在 2025 年 1 月发布时被广泛认为是一项突破。该模型证明了纯粹的强化学习——无需任何人类推理示例的监督式微调——就能产生高级思维链推理、自我修正,甚至令人惊讶的「啊哈时刻」,模型在对话中途独立发现了更好的推理策略。但问题在于:训练基础设施被认为需要大 …

TAG
CATEGORIES