Tags

PPO

TRL:Hugging Face 的 Transformer 強化学习函式库
AI

TRL:Hugging Face 的 Transformer 強化学习函式库

大型语言模型与人類偏好的对齊是 AI 发展中最重要的挑戰之一。TRL(GitHub 上的 huggingface/trl)——Hugging Face 的 Transformer 強化学习函式库——提供了一个全面的工具包来应对这项挑戰,在一个可用于正式环境、文件完善的套件中实作了完整的 …

TinyZero:用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理
AI

TinyZero:用不到 30 美元重现 DeepSeek R1-Zero 的强化学习推理

DeepSeek R1-Zero 在 2025 年 1 月发布时被广泛认为是一项突破。该模型证明了纯粹的强化学习——无需任何人类推理示例的监督式微调——就能产生高级思维链推理、自我修正,甚至令人惊讶的「啊哈时刻」,模型在对话中途独立发现了更好的推理策略。但问题在于:训练基础设施被认为需要大 …

TAG
CATEGORIES