强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作-财迷心窍网

探索: 强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作

时间：2010-12-5 17:23:32 作者：时尚来源：焦点查看：评论：0

内容摘要：强化学习让大模型自动纠错，数学、编程性能暴涨，DeepMind新作 2024年09月21日 14:51机器之心Pro
强化学习让大模型自动纠错，强化数学、学习性能新作编程性能暴涨，模型 DeepMind新作 2024年09月21日 14:51 机器之心Pro 新浪财经APP 缩小字体放大字体收藏微博微信分享腾讯QQ QQ空间

无需依赖外部反馈或额外模型，自动纯纯的纠错自我纠正。

自我纠正（Self-correction）是数学大语言模型 (LLM) 非常重要的能力，但人们发现这种能力在现代 LLM 中基本上很少存在。编程暴涨现有的强化训练自我纠正的方法要么需要多个模型，要么依赖于更强大的学习性能新作模型或其他形式的监督。

我们如何才能让 LLM 具备自我纠正能力？之前的模型研究要么依赖于提示工程，要么依赖于专门用于自我纠正的自动微调模型。但前者通常无法有效地进行有意义的纠错内在自我纠正，而后者基于微调的数学方法需要在推理时运行多个模型，例如需要 oracle「教师」来监督指导自我纠正过程。编程暴涨

在最近提交的强化一篇论文中，来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法，即通过强化学习进行自我纠正（SCoRe，Self-Correction via Reinforcement Learning)，只需训练一个模型，该模型既可以对推理问题做出响应，也可以纠正错误，尽管没有收到任何 oracle 反馈。更重要的是，SCoRe 完全通过在自生成数据上进行训练来教模型具备这种能力，而无需任何 oracle。

“雨姐”是个“好演员”
台积电第三季度净利润3253亿元台币，高于预期

最近更新

2024-10-19 14:23:18
5G游戏拍照小钢炮：OPPO K12 Plus，80W快充+超强续航，1999元起售的性能与颜值之选
2024-10-19 14:23:18
多项中台能力智能升级，赋能奥运观赛新体验
2024-10-19 14:23:18
六金王！马龙成为奥运金牌最多的中国运动员
2024-10-19 14:23:18
捷豹路虎扩大召回3辆进口捷豹纯电汽车将免费更换动力电池包或回购车辆
2024-10-19 14:23:18
教材变“付款应用”了？一本书有46个付款码，大学老师还沾沾自喜
2024-10-19 14:23:18
比亚迪D级猎跑腾势Z9GT展车到店实拍！8月20号预售当日可下单
2024-10-19 14:23:18
奥运8月10日看点：包圆？看两支“王牌之师”
2024-10-19 14:23:18
中国女曲巴黎奥运摘得银牌追平历史最好成绩

热门排行

2024-10-19 14:23:18
消息称宝马 MINI Cooper 五门版掀背车将于 11 月 15 日广州车展上市，继续以进口方式销售
2024-10-19 14:23:18
2024AGI商业趋势大会最新嘉宾议程公布，相约深圳见证AI闪光时刻
2024-10-19 14:23:18
曼联给得太多了！约罗年薪900万欧是皇马报价4倍
2024-10-19 14:23:18
2024AGI商业趋势大会最新嘉宾议程公布，相约深圳见证AI闪光时刻
2024-10-19 14:23:18
长沙自建房倒塌事故案一审宣判：15人获刑
2024-10-19 14:23:18
杜兰特23分詹姆斯21+9 美国男篮大胜塞尔维亚
2024-10-19 14:23:18
大华股份高级副总郜春山与陈强新上任一个管国内一个管海外营销？
2024-10-19 14:23:18
中国球类团队项目唯一奖牌，来自中国女曲