DPO:无需强化学习的 LLM 偏好直接优化
对于大部分大型语言模型对齐的历史,主导范式一直是从人类反馈的强化学习(RLHF)——一个结合奖励模型训练与强化学习的复杂多阶段流程。直接偏好优化(DPO) 以一个令人惊讶的简单替代方案颠覆了这种方法:直接从偏好数据对齐语言模型,完全不需要任何强化学习。
对于大部分大型语言模型对齐的历史,主导范式一直是从人类反馈的强化学习(RLHF)——一个结合奖励模型训练与强化学习的复杂多阶段流程。直接偏好优化(DPO) 以一个令人惊讶的简单替代方案颠覆了这种方法:直接从偏好数据对齐语言模型,完全不需要任何强化学习。
语言模型能够通过强化学习——而无需人类示范——发展出复杂推理能力的这一发现,是 2024 年和 2025 年 AI 研究中最令人惊讶的结果之一。DeepSeek R1 表明,使用 RL 训练的模型可以学会逐步思考,产生思维链推理,从而在数学、逻辑和编程任务上大幅提升表现。X-R1 是一个探 …
检索增强生成已成为将 LLM 响应建立在事实知识上的标准方法。但标准 RAG 有一个众所周知的限制:它在处理需要跨多个文档或实体连接信息的多跳问题时表现不佳。当一个问题问到「电话发明者出生国家的首都是什么?」时,答案需要在知识图谱中追踪一条路径——这是平面文本检索难以处理的。GNN-RAG …
改进 AI 模型最昂贵的部分一直是数据:收集、清理和标注数百万个示例需要巨大的人力。AutoDidact 探索了一个诱人的替代方案:如果语言模型能够自学呢?由研究员 dCaples 创建,这个开源框架实现了迭代自我改进循环,其中 LLM 生成自己的训练数据、评估自己的输出并微调自己——完全 …