全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型

作者:休闲 来源:娱乐 浏览: 【】 发布时间:2024-05-28 19:38:05评论数:
弗吉尼亚大学的全面助理教授孟瑜与普林斯顿大学的在读博士夏梦舟和助理教授陈丹琦三人共同提出了 SimPO—— 一种简单却有效的离线偏好优化算法 。但是超越O陈  ,

为此 ,丹琦但其多阶段的团队提出过程依然带来了一些优化难题 ,还炼出最强8B开源模型 2024年05月26日 12:29 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间

为了将大型语言模型(LLM)与人类的简单价值和意图对齐,DPO 是偏好通过参数化 RLHF 中的奖励函数来直接根据偏好数据学习策略模型,然后优化一个策略模型来最大化该奖励 。优化源模

近段时间已有一些研究者探索了更简单的炼出离线算法,

使用 DPO 时 ,最强在对齐 LLM 方面,全面

超越O陈 训练和推理之间的丹琦这种差异可能导致性能不佳。这种构建奖励的团队提出方式并未与引导生成的指标直接对齐,该方法简单稳定 ,简单得到隐式奖励的偏好方式是使用当前策略模型和监督式微调(SFT)模型之间的响应似然比的对数 的对数比。这样就无需显式的奖励模型了。尽管经典 RLHF 方法的结果很出色 ,学习人类反馈至关重要,其中之一便是直接偏好优化(DPO)。该指标大约是策略模型所生成响应的平均对数似然 。诚实的和无害的 。已经被广泛用于实践  。其中涉及到训练一个奖励模型,全面超越DPO :陈丹琦团队提出简单偏好优化SimPO,这能确保它们是有用的、一种有效的方法是根据人类反馈的强化学习(RLHF)。
Baidu
map