斯坦福大学

AI May 05, 2026

DPO：无需强化学习的 LLM 偏好直接优化

对于大部分大型语言模型对齐的历史，主导范式一直是从人类反馈的强化学习（RLHF）——一个结合奖励模型训练与强化学习的复杂多阶段流程。直接偏好优化（DPO）以一个令人惊讶的简单替代方案颠覆了这种方法：直接从偏好数据对齐语言模型，完全不需要任何强化学习。