Tags

PPO

TRL:Hugging Face 的 Transformer 強化學習函式庫
AI

TRL:Hugging Face 的 Transformer 強化學習函式庫

大型語言模型與人類偏好的對齊是 AI 發展中最重要的挑戰之一。TRL(GitHub 上的 huggingface/trl)——Hugging Face 的 Transformer 強化學習函式庫——提供了一個全面的工具包來應對這項挑戰,在一個可用於正式環境、文件完善的套件中實作了完整的 …

TinyZero:用不到 30 美元重現 DeepSeek R1-Zero 的強化學習推理
AI

TinyZero:用不到 30 美元重現 DeepSeek R1-Zero 的強化學習推理

DeepSeek R1-Zero 在 2025 年 1 月發布時被廣泛認為是一項突破。該模型證明了純粹的強化學習——無需任何人類推理範例的監督式微調——就能產生高級思維鏈推理、自我修正,甚至令人驚訝的「啊哈時刻」,模型在對話中途獨立發現了更好的推理策略。但問題在於:訓練基礎設施被認為需要大 …

TAG