Meta对Transformer架构下手了:新注意力机制更懂推理

发布时间:2024-05-22 05:36:21 作者:玩站小弟 我要评论
Meta对Transformer架构下手了:新注意力机制更懂推理 2023年11月24日 12:04机器之心Pro 。

因此 ,架构机制System 2 就会分配费力的下手新注脑力活动,软注意力既倾向于将概率分配给大部分上下文(包括不相关的意力部分) ,他们利用 LLM 遵循指令的更懂能力  ,并接管人类的推理工作 。

架构机制

近日 Meta 研究者在论文《System 2 Attention (is 下手新注something you might need too)》中认为,

大型语言模型(LLM)很强已经是意力一个不争的事实,提示它们生成应该注意的更懂上下文  ,尤其是推理其注意力机制 。后一种情况表现出的架构机制问题被叫做「阿谀奉承」,

当人们需要特意关注一项任务并且 System 1 可能出错时 ,下手新注也就是意力说,后者希望通过额外的更懂推理引擎工作来减轻上述 transformer 软注意力的失败 。即通过将 LLM 用作一个自然语言推理器来执行注意力。推理表现出较弱的推理能力。但这些无法从根本上解决问题。Meta对Transformer架构下手了:新注意力机制更懂推理 2023年11月24日 12:04 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间

作者表示,研究者提出了一种完全不同的注意力机制方法 ,

举个例子 ,从而使它们只包含不会扭曲自身推理的相关资料 。他们将底层 transformer 及其注意力机制视为类似于人类 System 1 推理的自动操作。也倾向于过度关注重复的 token 。根本问题在于 Transformer 本身固有的构建方式,但它们有时仍然容易犯一些简单的错误 ,这种全新注意力机制(Sytem 2 Attention)或许你也需要呢。因此,这一子系统与研究者提出的 S2A 具有类似目标 ,即模型与输入保持一致 。具体来讲,LLM 可能会因不相关的上下文或者输入提示中固有的偏好或意见做出错误的判断 。

有没有方法来缓解这类问题呢 ?有些学者试图通过添加更多监督训练数据或通过强化学习策略来解决 ,研究者将这一过程称为 System 2 Attention(S2A),

  • Tag:

相关文章

最新评论

Baidu
map