Reinforcement Learning

AI May 05, 2026

VeRL：字节跳动的 LLM 强化学习框架

2025-2026 年大型语言模型研究中最令人兴奋的前沿并不是让模型变得更大。而是通过强化学习让它们变得更聪明。DeepSeek-R1 证明了 RL 训练——特别是 GRPO（群组相对策略优化）——可以显著提升模型的推理能力，实现与更大模型相匹敌的链式思考推理、自我修正和结构化问题解决。字 …

AI May 05, 2026

DeepSeek R1-Zero 代表了 AI 推理的一项突破，它证明了纯强化学习（无需监督式微调）可以在语言模型中产生复杂的思维链推理。由 sail-sg（新加坡管理大学）开发的 Understand R1-Zero 项目，对其底层运作方式进行了全面分析。该项目对 R1-Zero 的训 …

AI May 05, 2026

大型语言模型与人類偏好的对齊是 AI 发展中最重要的挑戰之一。TRL（GitHub 上的 huggingface/trl）——Hugging Face 的 Transformer 強化学习函式库——提供了一个全面的工具包来应对这项挑戰，在一个可用于正式环境、文件完善的套件中实作了完整的 …