DPO

AI May 05, 2026

TRL：Hugging Face 的 Transformer 強化學習函式庫

大型語言模型與人類偏好的對齊是 AI 發展中最重要的挑戰之一。TRL（GitHub 上的 huggingface/trl）——Hugging Face 的 Transformer 強化學習函式庫——提供了一個全面的工具包來應對這項挑戰，在一個可用於正式環境、文件完善的套件中實作了完整的 …

AI May 05, 2026

在大型語言模型對齊的大部分歷史中，主導範式一直是基於人類回饋的強化學習（RLHF）——一個結合獎勵模型訓練與強化學習的複雜多階段流程。直接偏好最佳化（DPO）以一個令人驚訝的簡單替代方案顛覆了這種方法：直接從偏好資料對齊語言模型，完全不需要任何強化學習。