RLHF 替代方案

AI May 05, 2026

DPO：無需強化學習的 LLM 偏好直接最佳化

在大型語言模型對齊的大部分歷史中，主導範式一直是基於人類回饋的強化學習（RLHF）——一個結合獎勵模型訓練與強化學習的複雜多階段流程。直接偏好最佳化（DPO）以一個令人驚訝的簡單替代方案顛覆了這種方法：直接從偏好資料對齊語言模型，完全不需要任何強化學習。