PPO 则通过 裁剪目标函数(clipping)来实现对策略更新的控制。 Direct Preference Optimization。DPO 由斯坦福大学的研究者于 2023 年提出,它以一种惊人的简洁性,对传统的 RLHF 流程发起了挑战。DPO 的核心洞见是:我们完全可以绕过奖励模型建模这一中间步骤,直接 ...