Tags

VeRL

VeRL:字節跳動的 LLM 強化學習框架
AI

VeRL:字節跳動的 LLM 強化學習框架

2025-2026 年大型語言模型研究中最令人興奮的前沿並不是讓模型變得更大。而是透過強化學習讓它們變得更聰明。DeepSeek-R1 證明了 RL 訓練——特別是 GRPO(群組相對策略最佳化)——可以顯著提升模型的推理能力,實現與更大模型相匹敵的鏈式思考推理、自我修正和結構化問題解決。 …

TinyZero:用不到 30 美元重現 DeepSeek R1-Zero 的強化學習推理
AI

TinyZero:用不到 30 美元重現 DeepSeek R1-Zero 的強化學習推理

DeepSeek R1-Zero 在 2025 年 1 月發布時被廣泛認為是一項突破。該模型證明了純粹的強化學習——無需任何人類推理範例的監督式微調——就能產生高級思維鏈推理、自我修正,甚至令人驚訝的「啊哈時刻」,模型在對話中途獨立發現了更好的推理策略。但問題在於:訓練基礎設施被認為需要大 …

TAG