您的当前位置:首页>时尚>强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作正文
时间:2024-10-06 22:29:58来源:网络整理编辑:时尚
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作 2024年09月21日 14:51机器之心Pro
无需依赖外部反馈或额外模型,自动纯纯的纠错自我纠正。
自我纠正(Self-correction)是数学大语言模型 (LLM) 非常重要的能力,但人们发现这种能力在现代 LLM 中基本上很少存在。编程暴涨现有的强化训练自我纠正的方法要么需要多个模型,要么依赖于更强大的学习性能新作模型或其他形式的监督。
我们如何才能让 LLM 具备自我纠正能力?之前的模型研究要么依赖于提示工程,要么依赖于专门用于自我纠正的自动微调模型。但前者通常无法有效地进行有意义的纠错内在自我纠正,而后者基于微调的数学方法需要在推理时运行多个模型,例如需要 oracle「教师」来监督指导自我纠正过程。编程暴涨
在最近提交的强化一篇论文中,来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法,即通过强化学习进行自我纠正(SCoRe,Self-Correction via Reinforcement Learning),只需训练一个模型,该模型既可以对推理问题做出响应,也可以纠正错误,尽管没有收到任何 oracle 反馈。更重要的是,SCoRe 完全通过在自生成数据上进行训练来教模型具备这种能力,而无需任何 oracle。
港股上演“V”型反转2024-10-06 22:24
乒乓球 AI 机器人赢了人类!正反手灵活转换,擦网球高球都能接,专业教练称达到中级选手水平2024-10-06 21:53
奥特曼「草莓」模型跳票,OpenAI凌晨大新闻,把网友整懵了2024-10-06 21:39
王思聪说累了,黄一鸣也不再闹腾,双方和解过自由生活2024-10-06 21:29
苏丹霍乱疫情继续扩散 已致566人死亡2024-10-06 21:02
刘清漪争夺霹雳舞铜牌2024-10-06 20:57
滴滴、高德等23家网约车平台签署倡议书:承诺抽成不超30%2024-10-06 20:36
牛肉价格跌破2字头 有企业预计半年暴亏7个亿2024-10-06 20:25
外媒:哈梅内伊称,伊朗向以色列发动导弹袭击“合法且正当”2024-10-06 20:19
巴黎奥运女子铅球宋佳媛摘铜 卫冕冠军巩立姣第52024-10-06 20:08
祝贺!郑钦文挺进女单八强2024-10-06 21:53
海力士抢先展示UFS 4.1闪存:基于V9 TLC NAND颗粒打造2024-10-06 21:40
库迪咖啡李颖波:我们希望把自己定位成开店支撑平台2024-10-06 21:37
奉献最精彩的乒乓对决,国乒男团成就奥运会五连冠2024-10-06 21:29
也门胡塞武装:美英对也门多地发动多次空袭2024-10-06 21:23
房地产大涨,房价又涨了!A股继续探底,后市怎么看?2024-10-06 21:08
U20男排亚锦赛中国02024-10-06 21:02
Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对2024-10-06 20:46
富时中国A50指数期货回吐日内全部涨幅而转跌2024-10-06 20:45
奉献最精彩的乒乓对决,国乒男团成就奥运会五连冠2024-10-06 20:11