Categories

研究

Verifiers:用於訓練 LLM 代理的模組化 RL 環境庫
AI

Verifiers:用於訓練 LLM 代理的模組化 RL 環境庫

Verifiers 是由 PrimeIntellect-ai 開發的模組化 Python 庫,提供一個全面框架,用於建立專為訓練 LLM 代理而設計的強化學習環境。專為從事基於 RL 的 LLM 對齊與代理最佳化的研究人員與實務工作者設計,Verifiers 提供一個乾淨、可組合的 …

OpenManus-RL:LLM 代理的強化學習調校
AI

OpenManus-RL:LLM 代理的強化學習調校

OpenManus-RL 是一個位於強化學習與 LLM 代理系統交會點的開源研究專案,由 Ulab-UIUC(伊利諾大學香檳分校)與 MetaGPT 協作開發。該專案提供一個全面的框架,用於 LLM 基礎代理的強化學習調校,實作了 GRPO(群組相對策略最佳化)、監督式微調 (SFT) 以 …

神經符號 AI 能耗降低 100 倍
AI 趨勢

神經符號 AI 能耗降低 100 倍

AI 產業在過去五年透過擴展規模來獲取更強大的模型——增加參數、消耗更多算力,以令電網營運商從維吉尼亞到新加坡都警覺的速度吞噬電力。2026 年 4 月,塔夫茨大學研究團隊發布了一項成果,從根本挑戰這一策略的核心假設:更大,不必然意味著更昂貴。他們的神經符號視覺語言動作模型在一項嚴苛的規劃 …

TAG