Categories

開源軟體

DPO:無需強化學習的 LLM 偏好直接最佳化
AI

DPO:無需強化學習的 LLM 偏好直接最佳化

在大型語言模型對齊的大部分歷史中,主導範式一直是基於人類回饋的強化學習(RLHF)——一個結合獎勵模型訓練與強化學習的複雜多階段流程。直接偏好最佳化(DPO) 以一個令人驚訝的簡單替代方案顛覆了這種方法:直接從偏好資料對齊語言模型,完全不需要任何強化學習。

Dify:開源 LLM 應用程式開發平台
AI

Dify:開源 LLM 應用程式開發平台

構建生產級 AI 應用程式需要的遠不止調用 LLM API。你需要文件處理流程、向量資料庫、提示管理、對話記憶、使用者認證、監控以及根據實際使用情況迭代應用程式行為的方法。Dify 在一個單一、整合的開源平台中提供了所有這些。

Detectron2:Meta 的物體偵測與分割平台
AI

Detectron2:Meta 的物體偵測與分割平台

物體偵測在過去十年中經歷了顯著的演進,從手工設計的特徵發展到能夠以超越人類的準確度識別和定位物體的深度神經網路。Detectron2 站在這股演進的最前沿——Meta AI 的開源平台,實作了用於物體偵測、分割和姿態估計的最新演算法。

ColossalAI:開源大規模 AI 訓練框架
AI

ColossalAI:開源大規模 AI 訓練框架

訓練大型 AI 模型本質上是一個分散式計算問題。單個 70B 參數模型需要的記憶體超過任何 GPU 所能提供,而在合理時間內訓練它需要協調數百或數千個加速器協同工作。ColossalAI 是一個為解決此協調挑戰而構建的框架,提供從單一 GPU 到數千個 GPU 擴展訓練所需的並行原語。

AutoGen:Microsoft 的多代理對話框架
AI

AutoGen:Microsoft 的多代理對話框架

最複雜的問題很少由單獨工作的個人解決。它們需要協作——專家貢獻他們的專業知識、辯論方法、建立在彼此的工作之上,並迭代趨近解決方案。AutoGen,Microsoft 的多代理對話框架,將同樣的協作範式帶到了 AI 代理。

TAG