强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作-多多益善网

强化学习让大模型自动纠错，强化数学、学习性能新作编程性能暴涨，模型 DeepMind新作 2024年09月21日 14:51 机器之心Pro 新浪财经APP 缩小字体放大字体收藏微博微信分享腾讯QQ QQ空间

无需依赖外部反馈或额外模型，自动纯纯的纠错自我纠正。

自我纠正（Self-correction）是数学大语言模型 (LLM) 非常重要的能力，但人们发现这种能力在现代 LLM 中基本上很少存在。编程暴涨现有的强化训练自我纠正的方法要么需要多个模型，要么依赖于更强大的学习性能新作模型或其他形式的监督。

我们如何才能让 LLM 具备自我纠正能力？之前的模型研究要么依赖于提示工程，要么依赖于专门用于自我纠正的自动微调模型。但前者通常无法有效地进行有意义的纠错内在自我纠正，而后者基于微调的数学方法需要在推理时运行多个模型，例如需要 oracle「教师」来监督指导自我纠正过程。编程暴涨

在最近提交的强化一篇论文中，来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法，即通过强化学习进行自我纠正（SCoRe，Self-Correction via Reinforcement Learning)，只需训练一个模型，该模型既可以对推理问题做出响应，也可以纠正错误，尽管没有收到任何 oracle 反馈。更重要的是，SCoRe 完全通过在自生成数据上进行训练来教模型具备这种能力，而无需任何 oracle。