Reinforcement Learning

AI May 05, 2026

VeRL：字節跳動的 LLM 強化學習框架

2025-2026 年大型語言模型研究中最令人興奮的前沿並不是讓模型變得更大。而是透過強化學習讓它們變得更聰明。DeepSeek-R1 證明了 RL 訓練——特別是 GRPO（群組相對策略最佳化）——可以顯著提升模型的推理能力，實現與更大模型相匹敵的鏈式思考推理、自我修正和結構化問題解決。 …

AI May 05, 2026

大型語言模型與人類偏好的對齊是 AI 發展中最重要的挑戰之一。TRL（GitHub 上的 huggingface/trl）——Hugging Face 的 Transformer 強化學習函式庫——提供了一個全面的工具包來應對這項挑戰，在一個可用於正式環境、文件完善的套件中實作了完整的 …