DPO

AI May 05, 2026

TRL：Hugging Face 的 Transformer 強化学习函式库

大型语言模型与人類偏好的对齊是 AI 发展中最重要的挑戰之一。TRL（GitHub 上的 huggingface/trl）——Hugging Face 的 Transformer 強化学习函式库——提供了一个全面的工具包来应对这项挑戰，在一个可用于正式环境、文件完善的套件中实作了完整的 …

AI May 05, 2026

对于大部分大型语言模型对齐的历史，主导范式一直是从人类反馈的强化学习（RLHF）——一个结合奖励模型训练与强化学习的复杂多阶段流程。直接偏好优化（DPO）以一个令人惊讶的简单替代方案颠覆了这种方法：直接从偏好数据对齐语言模型，完全不需要任何强化学习。