Tags

斯坦福大学

DPO:无需强化学习的 LLM 偏好直接优化
AI

DPO:无需强化学习的 LLM 偏好直接优化

对于大部分大型语言模型对齐的历史,主导范式一直是从人类反馈的强化学习(RLHF)——一个结合奖励模型训练与强化学习的复杂多阶段流程。直接偏好优化(DPO) 以一个令人惊讶的简单替代方案颠覆了这种方法:直接从偏好数据对齐语言模型,完全不需要任何强化学习。

TAG
CATEGORIES