PPO

AI May 05, 2026

TRL：Hugging Face 的 Transformer 強化學習函式庫

大型語言模型與人類偏好的對齊是 AI 發展中最重要的挑戰之一。TRL（GitHub 上的 huggingface/trl）——Hugging Face 的 Transformer 強化學習函式庫——提供了一個全面的工具包來應對這項挑戰，在一個可用於正式環境、文件完善的套件中實作了完整的 …

AI May 03, 2026

DeepSeek R1-Zero 在 2025 年 1 月發布時被廣泛認為是一項突破。該模型證明了純粹的強化學習——無需任何人類推理範例的監督式微調——就能產生高級思維鏈推理、自我修正，甚至令人驚訝的「啊哈時刻」，模型在對話中途獨立發現了更好的推理策略。但問題在於：訓練基礎設施被認為需要大 …