PPO

AI May 05, 2026

TRL：Hugging Face 的 Transformer 強化学习函式库

大型语言模型与人類偏好的对齊是 AI 发展中最重要的挑戰之一。TRL（GitHub 上的 huggingface/trl）——Hugging Face 的 Transformer 強化学习函式库——提供了一个全面的工具包来应对这项挑戰，在一个可用于正式环境、文件完善的套件中实作了完整的 …

AI May 03, 2026

DeepSeek R1-Zero 在 2025 年 1 月发布时被广泛认为是一项突破。该模型证明了纯粹的强化学习——无需任何人类推理示例的监督式微调——就能产生高级思维链推理、自我修正，甚至令人惊讶的「啊哈时刻」，模型在对话中途独立发现了更好的推理策略。但问题在于：训练基础设施被认为需要大 …