最近一段时间,随着 OpenAI o1 模型的型否推出,关于大型语言模型是有推月前否拥有推理能力的讨论又多了起来。比如苹果在前段时间的理能力一篇论文中指出,只要给模型一些干扰,数社区最聪明的文让模型也会犯最简单的错误。这种现象被归结为「当前的吵起 LLM 无法进行真正的逻辑推理;相反,它们试图复制在训练数据中观察到的大模的论推理步骤」。然而,型否事实真的有推月前是这样吗?谷歌 DeepMind 的一篇论文似乎得出了相反的结论。
最近,理能力DeepMind 今年 2 月份的数社区一篇论文在社交媒体上掀起了一些波澜。