Tags

RLHF 替代方案

DPO:無需強化學習的 LLM 偏好直接最佳化
AI

DPO:無需強化學習的 LLM 偏好直接最佳化

在大型語言模型對齊的大部分歷史中,主導範式一直是基於人類回饋的強化學習(RLHF)——一個結合獎勵模型訓練與強化學習的複雜多階段流程。直接偏好最佳化(DPO) 以一個令人驚訝的簡單替代方案顛覆了這種方法:直接從偏好資料對齊語言模型,完全不需要任何強化學習。

TAG