您现在的位置是：登峰造极网>知识

强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

登峰造极网2024-10-07 15:20:56【知识】3人已围观

简介强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作 2024年09月21日 14:51机器之心Pro

强化学习让大模型自动纠错，强化数学、学习性能新作编程性能暴涨，模型 DeepMind新作 2024年09月21日 14:51 机器之心Pro 新浪财经APP 缩小字体放大字体收藏微博微信分享腾讯QQ QQ空间

无需依赖外部反馈或额外模型，自动纯纯的纠错自我纠正。

自我纠正（Self-correction）是数学大语言模型 (LLM) 非常重要的能力，但人们发现这种能力在现代 LLM 中基本上很少存在。编程暴涨现有的强化训练自我纠正的方法要么需要多个模型，要么依赖于更强大的学习性能新作模型或其他形式的监督。

我们如何才能让 LLM 具备自我纠正能力？之前的模型研究要么依赖于提示工程，要么依赖于专门用于自我纠正的自动微调模型。但前者通常无法有效地进行有意义的纠错内在自我纠正，而后者基于微调的数学方法需要在推理时运行多个模型，例如需要 oracle「教师」来监督指导自我纠正过程。编程暴涨

在最近提交的强化一篇论文中，来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法，即通过强化学习进行自我纠正（SCoRe，Self-Correction via Reinforcement Learning)，只需训练一个模型，该模型既可以对推理问题做出响应，也可以纠正错误，尽管没有收到任何 oracle 反馈。更重要的是，SCoRe 完全通过在自生成数据上进行训练来教模型具备这种能力，而无需任何 oracle。

很赞哦!（936）

上一篇：美疾控中心：加州已有56家奶牛场报告禽流感疫情

下一篇：美英联军两次空袭也门荷台达市西部地区

您现在的位置是：登峰造极网>知识

强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

相关文章

热门文章

站长推荐

友情链接