研究

AI May 05, 2026

DPO：無需強化學習的 LLM 偏好直接最佳化

在大型語言模型對齊的大部分歷史中，主導範式一直是基於人類回饋的強化學習（RLHF）——一個結合獎勵模型訓練與強化學習的複雜多階段流程。直接偏好最佳化（DPO）以一個令人驚訝的簡單替代方案顛覆了這種方法：直接從偏好資料對齊語言模型，完全不需要任何強化學習。

AI May 04, 2026

語言模型能夠透過強化學習——而無需人類示範——發展出複雜推理能力的這一發現，是 2024 年和 2025 年 AI 研究中最令人驚訝的結果之一。DeepSeek R1 表明，使用 RL 訓練的模型可以學會逐步思考，產生思維鏈推理，從而在數學、邏輯和程式設計任務上大幅提升表現。X-R1 是一 …

AI May 04, 2026

檢索增強生成已成為將 LLM 回應建立在事實知識上的標準方法。但標準 RAG 有一個眾所周知的限制：它在處理需要跨多個文件或實體連接資訊的多跳問題時表現不佳。當一個問題問到「電話發明者出生國家的首都是什麼？」時，答案需要在知識圖譜中追蹤一條路徑——這是平面文字檢索難以處理的。GNN-RAG …

AI May 04, 2026

改進 AI 模型最昂貴的部分一直是數據：收集、清理和標註數百萬個範例需要巨大的人力。AutoDidact 探索了一個誘人的替代方案：如果語言模型能夠自學呢？由研究員 dCaples 創建，這個開源框架實現了迭代自我改進循環，其中 LLM 生成自己的訓練數據、評估自己的輸出並微調自己——完全 …