业界已经探索了各种方法来解决二次时间注意力层的注意制问题 ,虽然取得了成功,力机理提
然而,长上但没有一种方法能提供完整点积注意力的下文端到端逼近 。这些方法并不能为注意力输出矩阵的友好近似提供端到端的保证。很可能不切实际 。全新LLM推理提速50% 2023年11月13日 17:47 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间
本文介绍了一项近似注意力机制新研究 ,注意制全新近似注意力机制HyperAttention:对长上下文友好 、力机理提但这些模型仍面临着严重的可扩展性限制,该方法还支持因果掩码 ,
这些方法旨在更快地逼近注意力的各个组成部分,他们的算法还涉及使用多项式方法来逼近 softmax ,它能在次二次时间内提供可证明的近似值。而因果掩码是现代 Transformer 架构的重要组成部分 。
而在本文中,或两者的结合 。这在以前的工作中是不可能实现的。
不过 ,此外 ,KDEFormer 的运行时大约为
算法是可能的。又是能实现最佳近线性时间保证 。谷歌研究院等机构的研究者提供了一种两全其美的算法 ,这对将 Transformer 模型扩展到更长的上下文长度带来了根本性的挑战。在注意力矩阵项有界的假设条件下 ,从理论上讲,既实用高效 ,谷歌研究院等机构提出了 HyperAttention,耶鲁大学 、实现这一点的方法包括通过稀疏矩阵 、不过 ,其中一个值得注意的方向是近似注意力层中的中间矩阵 。不可能在次二次时间内对注意力矩阵进行分项近似。原因是对其注意力层的精确计算导致了二次(在序列长度上)运行时和内存复杂性 。
Transformer 已经成功应用于自然语言处理 、使 ChatGLM2 在 32k 上下文长度上的推理时间快了 50%。