您现在的位置是:登峰造极网>知识
强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作
登峰造极网2024-10-07 15:20:56【知识】3人已围观
简介强化学习让大模型自动纠错,数学、编程性能暴涨,DeepMind新作 2024年09月21日 14:51机器之心Pro
强化学习让大模型自动纠错,强化数学、学习性能新作编程性能暴涨,模型
DeepMind新作 2024年09月21日 14:51 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间
无需依赖外部反馈或额外模型,自动纯纯的纠错自我纠正。
自我纠正(Self-correction)是数学大语言模型 (LLM) 非常重要的能力,但人们发现这种能力在现代 LLM 中基本上很少存在。编程暴涨现有的强化训练自我纠正的方法要么需要多个模型,要么依赖于更强大的学习性能新作模型或其他形式的监督。
我们如何才能让 LLM 具备自我纠正能力?之前的模型研究要么依赖于提示工程,要么依赖于专门用于自我纠正的自动微调模型。但前者通常无法有效地进行有意义的纠错内在自我纠正,而后者基于微调的数学方法需要在推理时运行多个模型,例如需要 oracle「教师」来监督指导自我纠正过程。编程暴涨
在最近提交的强化一篇论文中,来自 Google DeepMind 的研究者开发了一种无需上述任何要求即可有效进行自我纠正的方法,即通过强化学习进行自我纠正(SCoRe,Self-Correction via Reinforcement Learning),只需训练一个模型,该模型既可以对推理问题做出响应,也可以纠正错误,尽管没有收到任何 oracle 反馈。更重要的是,SCoRe 完全通过在自生成数据上进行训练来教模型具备这种能力,而无需任何 oracle。
很赞哦!(936)
热门文章
站长推荐
友情链接
- 799元!小米新款移动固态硬盘1TB上市:读写2000MB/s
- 马斯克称特斯拉明年将小规模生产人形机器人,有望后年量产
- 特朗普回应拜登退选:哈里斯比拜登更容易击败
- 旅游行业乱象频发,意大利开始打击无证经营“黑导游”
- 国内首个道路运输食用油罐车企业标准来了!
- 霍启刚:没想到参加奥运要自带空调,赢和享受过程同样重要
- 国防部、外交部相继发声,日本最好小心点!
- 韩媒:持续暴雨致大棚种植基地遭水灾,韩国担忧“西瓜大乱”重演
- 从业人员机会变少!罢工一周年,好莱坞还没缓过来
- 也门胡塞武装:荷台达港将在24小时内恢复运转
- 特朗普为大选再度立威:如果不用美元,就等着100%的关税!
- 德媒:非洲期待中国绿色产能
- 海口气象台回应为何把自家大门焊上:天灾面前不能心存侥幸
- 本周涨跌榜TOP20:深圳华强、科森科技狂飙,奇葩题材火了
- 巡回锦标赛舍夫勒再获低杆 领先森川5杆冲刺总冠军
- 赖斯参加了245场英超比赛 第一次被红牌罚下
- V观财报|第二次!ST旭蓝被证监会立案
- 抖音版“神会员”?抖音本地生活上线超值券膨胀活动
- 国足0比7日本后:多少人在吐槽声中边笑边破防!
- 企业AI开放平台(OPEA)研讨会在京举办