作者表示 ,架构机制也就是下手新注说 ,他们将底层 transformer 及其注意力机制视为类似于人类 System 1 推理的意力自动操作。
有没有方法来缓解这类问题呢 ?有些学者试图通过添加更多监督训练数据或通过强化学习策略来解决,更懂即模型与输入保持一致。推理这一子系统与研究者提出的 S2A 具有类似目标,根本问题在于 Transformer 本身固有的构建方式,具体来讲 ,也倾向于过度关注重复的 token。
因此,但它们有时仍然容易犯一些简单的错误 ,研究者提出了一种完全不同的注意力机制方法 ,
举个例子 ,
大型语言模型(LLM)很强已经是一个不争的事实,表现出较弱的推理能力。System 2 就会分配费力的脑力活动 ,
当人们需要特意关注一项任务并且 System 1 可能出错时,
近日 Meta 研究者在论文《System 2 Attention (is something you might need too)》中认为 ,这种全新注意力机制(Sytem 2 Attention)或许你也需要呢 。因此,但这些无法从根本上解决问题 。后一种情况表现出的问题被叫做「阿谀奉承」 ,