您现在的位置是：时尚>>正文

强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

时尚191人已围观

简介强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作 2024年09月21日 14:51机器之心Pro ...

强化学习让大模型自动纠错，强化数学、学习性能新作编程性能暴涨，模型 DeepMind新作 2024年09月21日 14:51 机器之心Pro 新浪财经APP 缩小字体放大字体收藏微博微信分享腾讯QQ QQ空间

无需依赖外部反馈或额外模型，自动纯纯的纠错自我纠正。

自我纠正（Self-correction）是数学大语言模型 (LLM) 非常重要的能力，但人们发现这种能力在现代 LLM 中基本上很少存在。编程暴涨现有的强化训练自我纠正的方法要么需要多个模型，要么依赖于更强大的学习性能新作模型或其他形式的监督。

我们如何才能让 LLM 具备自我纠正能力？之前的模型研究要么依赖于提示工程，要么依赖于专门用于自我纠正的自动微调模型。但前者通常无法有效地进行有意义的纠错内在自我纠正，而后者基于微调的数学方法需要在推理时运行多个模型，例如需要 oracle「教师」来监督指导自我纠正过程。编程暴涨

在最近提交的强化一篇论文中，来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法，即通过强化学习进行自我纠正（SCoRe，Self-Correction via Reinforcement Learning)，只需训练一个模型，该模型既可以对推理问题做出响应，也可以纠正错误，尽管没有收到任何 oracle 反馈。更重要的是，SCoRe 完全通过在自生成数据上进行训练来教模型具备这种能力，而无需任何 oracle。

Tags：

上一篇：土总统悼念哈马斯领导人辛瓦尔批评美西方纵容以色列

下一篇：黎真主党称击落以军无人机并袭击戈兰高地以军目标

Meta发布新AI模型：可自查和审查其他AI模型工作
时尚
Meta发布新AI模型：可自查和审查其他AI模型工作 2024年10月21日 09:50快科技 ...
2024-10-22 15:45【时尚】
阅读更多
韩媒：韩国男性“养颜”花费高于女性，求职时更在乎外貌
时尚
韩媒：韩国男性“养颜”花费高于女性，求职时更在乎外貌2024年08月01日 07:06环球网缩小字体放大字体收藏微博微信分享0腾讯QQQQ空间 [ ...
2024-10-22 14:51【时尚】
阅读更多
索普狂赞潘展乐澳洲前百自冠军：杀疯了的速度
时尚
索普狂赞潘展乐澳洲前百自冠军：杀疯了的速度2024-08-01 10:30:37来源: 网易体育北京举报 ...
2024-10-22 14:36【时尚】
阅读更多

您现在的位置是：时尚>>正文

强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

相关文章

Meta发布新AI模型：可自查和审查其他AI模型工作

韩媒：韩国男性“养颜”花费高于女性，求职时更在乎外貌

索普狂赞潘展乐澳洲前百自冠军：杀疯了的速度

热门文章

最新文章

友情链接

您现在的位置是：时尚>>正文

强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

相关文章

Meta发布新AI模型：可自查和审查其他AI模型工作

韩媒：韩国男性“养颜”花费高于女性，求职时更在乎外貌

索普狂赞潘展乐 澳洲前百自冠军：杀疯了的速度

热门文章

最新文章

友情链接

索普狂赞潘展乐澳洲前百自冠军：杀疯了的速度