Categories

研究

Understand R1-Zero:深入探索 DeepSeek R1 的強化學習
AI

Understand R1-Zero:深入探索 DeepSeek R1 的強化學習

DeepSeek R1-Zero 代表了 AI 推理的一項突破,它證明了純強化學習(無需監督式微調)可以在語言模型中產生複雜的思維鏈推理。由 sail-sg(新加坡管理大學)開發的 Understand R1-Zero 專案,對其底層運作方式進行了全面分析。 該專案對 R1-Zero 的訓 …

DPO:無需強化學習的 LLM 偏好直接最佳化
AI

DPO:無需強化學習的 LLM 偏好直接最佳化

在大型語言模型對齊的大部分歷史中,主導範式一直是基於人類回饋的強化學習(RLHF)——一個結合獎勵模型訓練與強化學習的複雜多階段流程。直接偏好最佳化(DPO) 以一個令人驚訝的簡單替代方案顛覆了這種方法:直接從偏好資料對齊語言模型,完全不需要任何強化學習。

X-R1:開源推理模型探索
AI

X-R1:開源推理模型探索

語言模型能夠透過強化學習——而無需人類示範——發展出複雜推理能力的這一發現,是 2024 年和 2025 年 AI 研究中最令人驚訝的結果之一。DeepSeek R1 表明,使用 RL 訓練的模型可以學會逐步思考,產生思維鏈推理,從而在數學、邏輯和程式設計任務上大幅提升表現。X-R1 是一 …

GNN-RAG:圖神經網路增強的檢索增強生成
AI

GNN-RAG:圖神經網路增強的檢索增強生成

檢索增強生成已成為將 LLM 回應建立在事實知識上的標準方法。但標準 RAG 有一個眾所周知的限制:它在處理需要跨多個文件或實體連接資訊的多跳問題時表現不佳。當一個問題問到「電話發明者出生國家的首都是什麼?」時,答案需要在知識圖譜中追蹤一條路徑——這是平面文字檢索難以處理的。GNN-RAG …

AutoDidact:LLM 自我改進的自學框架
AI

AutoDidact:LLM 自我改進的自學框架

改進 AI 模型最昂貴的部分一直是數據:收集、清理和標註數百萬個範例需要巨大的人力。AutoDidact 探索了一個誘人的替代方案:如果語言模型能夠自學呢?由研究員 dCaples 創建,這個開源框架實現了迭代自我改進循環,其中 LLM 生成自己的訓練數據、評估自己的輸出並微調自己——完全 …

SWE-agent:普林斯頓大學開源的自主軟體工程 AI 代理
AI

SWE-agent:普林斯頓大學開源的自主軟體工程 AI 代理

普林斯頓大學自然語言處理小組產出了許多 AI 領域最具影響力的研究,而 SWE-agent 代表了對新興 AI 驅動軟體工程領域的一項里程碑貢獻。SWE-agent 不將程式碼生成視為無狀態的文字補全問題,而是將其框架為一個互動式代理任務:模型接收一個 GitHub 問題,必須探索程式碼庫 …

TAG