Tags

VeRL

VeRL:字节跳动的 LLM 强化学习框架
AI

VeRL:字节跳动的 LLM 强化学习框架

2025-2026 年大型语言模型研究中最令人兴奋的前沿并不是让模型变得更大。而是通过强化学习让它们变得更聪明。DeepSeek-R1 证明了 RL 训练——特别是 GRPO(群组相对策略优化)——可以显著提升模型的推理能力,实现与更大模型相匹敌的链式思考推理、自我修正和结构化问题解决。字 …

TinyZero:用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理
AI

TinyZero:用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理

DeepSeek R1-Zero 在 2025 年 1 月发布时被广泛认为是一项突破。该模型证明了纯粹的强化学习——无需任何人类推理示例的监督式微调——就能产生高级思维链推理、自我修正,甚至令人惊讶的「啊哈时刻」,模型在对话中途独立发现了更好的推理策略。但问题在于:训练基础设施被认为需要大 …

TAG
CATEGORIES