研究

AI May 05, 2026

DPO：无需强化学习的 LLM 偏好直接优化

对于大部分大型语言模型对齐的历史，主导范式一直是从人类反馈的强化学习（RLHF）——一个结合奖励模型训练与强化学习的复杂多阶段流程。直接偏好优化（DPO）以一个令人惊讶的简单替代方案颠覆了这种方法：直接从偏好数据对齐语言模型，完全不需要任何强化学习。

AI May 04, 2026

语言模型能够通过强化学习——而无需人类示范——发展出复杂推理能力的这一发现，是 2024 年和 2025 年 AI 研究中最令人惊讶的结果之一。DeepSeek R1 表明，使用 RL 训练的模型可以学会逐步思考，产生思维链推理，从而在数学、逻辑和编程任务上大幅提升表现。X-R1 是一个探 …

AI May 04, 2026

检索增强生成已成为将 LLM 响应建立在事实知识上的标准方法。但标准 RAG 有一个众所周知的限制：它在处理需要跨多个文档或实体连接信息的多跳问题时表现不佳。当一个问题问到「电话发明者出生国家的首都是什么？」时，答案需要在知识图谱中追踪一条路径——这是平面文本检索难以处理的。GNN-RAG …

AI May 04, 2026

改进 AI 模型最昂贵的部分一直是数据：收集、清理和标注数百万个示例需要巨大的人力。AutoDidact 探索了一个诱人的替代方案：如果语言模型能够自学呢？由研究员 dCaples 创建，这个开源框架实现了迭代自我改进循环，其中 LLM 生成自己的训练数据、评估自己的输出并微调自己——完全 …