探索

强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作

字号+作者:多多益善网来源:知识2024-10-20 10:38:27我要评论(0)

强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作 2024年09月21日 14:51机器之心Pro

强化学习让大模型自动纠错,强化数学、学习性能新作编程性能暴涨,模型 DeepMind新作 2024年09月21日 14:51 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间

无需依赖外部反馈或额外模型,自动纯纯的纠错自我纠正。

自我纠正(Self-correction)是数学大语言模型 (LLM) 非常重要的能力,但人们发现这种能力在现代 LLM 中基本上很少存在。编程暴涨现有的强化训练自我纠正的方法要么需要多个模型,要么依赖于更强大的学习性能新作模型或其他形式的监督。

我们如何才能让 LLM 具备自我纠正能力?之前的模型研究要么依赖于提示工程,要么依赖于专门用于自我纠正的自动微调模型。但前者通常无法有效地进行有意义的纠错内在自我纠正,而后者基于微调的数学方法需要在推理时运行多个模型,例如需要 oracle「教师」来监督指导自我纠正过程。编程暴涨

在最近提交的强化一篇论文中,来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法,即通过强化学习进行自我纠正(SCoRe,Self-Correction via Reinforcement Learning),只需训练一个模型,该模型既可以对推理问题做出响应,也可以纠正错误,尽管没有收到任何 oracle 反馈。更重要的是,SCoRe 完全通过在自生成数据上进行训练来教模型具备这种能力,而无需任何 oracle。

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 剑指苹果2.5万元Vision Pro头显!华为首款高端MR/VR设备下周发布

    剑指苹果2.5万元Vision Pro头显!华为首款高端MR/VR设备下周发布

    2024-10-20 10:36

  • 九号电动摩托车E300P MK2发布:零百加速5.9秒、最远跑135km

    九号电动摩托车E300P MK2发布:零百加速5.9秒、最远跑135km

    2024-10-20 09:00

  • 李佳琦带货黑神话悟空卖了1000来份 购物卡都没送完

    李佳琦带货黑神话悟空卖了1000来份 购物卡都没送完

    2024-10-20 08:49

  • 国产显卡配国产3A!摩尔线程内测《黑神话:悟空》驱动:MTT S80流畅运行

    国产显卡配国产3A!摩尔线程内测《黑神话:悟空》驱动:MTT S80流畅运行

    2024-10-20 07:53

网友点评
Baidu
map