研究

AI May 05, 2026

Understand R1-Zero：深入探索 DeepSeek R1 的強化學習

DeepSeek R1-Zero 代表了 AI 推理的一項突破，它證明了純強化學習（無需監督式微調）可以在語言模型中產生複雜的思維鏈推理。由 sail-sg（新加坡管理大學）開發的 Understand R1-Zero 專案，對其底層運作方式進行了全面分析。該專案對 R1-Zero 的訓 …

AI May 05, 2026

在大型語言模型對齊的大部分歷史中，主導範式一直是基於人類回饋的強化學習（RLHF）——一個結合獎勵模型訓練與強化學習的複雜多階段流程。直接偏好最佳化（DPO）以一個令人驚訝的簡單替代方案顛覆了這種方法：直接從偏好資料對齊語言模型，完全不需要任何強化學習。

AI May 04, 2026

語言模型能夠透過強化學習——而無需人類示範——發展出複雜推理能力的這一發現，是 2024 年和 2025 年 AI 研究中最令人驚訝的結果之一。DeepSeek R1 表明，使用 RL 訓練的模型可以學會逐步思考，產生思維鏈推理，從而在數學、邏輯和程式設計任務上大幅提升表現。X-R1 是一 …

AI May 04, 2026

檢索增強生成已成為將 LLM 回應建立在事實知識上的標準方法。但標準 RAG 有一個眾所周知的限制：它在處理需要跨多個文件或實體連接資訊的多跳問題時表現不佳。當一個問題問到「電話發明者出生國家的首都是什麼？」時，答案需要在知識圖譜中追蹤一條路徑——這是平面文字檢索難以處理的。GNN-RAG …

AI May 04, 2026

改進 AI 模型最昂貴的部分一直是數據：收集、清理和標註數百萬個範例需要巨大的人力。AutoDidact 探索了一個誘人的替代方案：如果語言模型能夠自學呢？由研究員 dCaples 創建，這個開源框架實現了迭代自我改進循環，其中 LLM 生成自己的訓練數據、評估自己的輸出並微調自己——完全 …

AI May 04, 2026

普林斯頓大學自然語言處理小組產出了許多 AI 領域最具影響力的研究，而 SWE-agent 代表了對新興 AI 驅動軟體工程領域的一項里程碑貢獻。SWE-agent 不將程式碼生成視為無狀態的文字補全問題，而是將其框架為一個互動式代理任務：模型接收一個 GitHub 問題，必須探索程式碼庫 …