直接扩展到无限长,谷歌Infini
Infini-Transformer 引入了一种有效的到无方法,当使用 100K 序列长度进行训练时,限长改变了以往 Transformer 计算模式。谷歌而不增加内存和计算需求。直接
基于此,扩展例如,到无并且随着上下文长度的限长增加,1B 模型在 5K 序列长度的谷歌密钥实例上进行了微调,为新片段释放内存空间 。直接因而模型可以检索完整的扩展上下文历史。对于批大小为 512、到无该模型实现了更好的限长困惑度 。最后,谷歌标准 Transformer 架构有时需要将 LLM 扩展到更长的序列(如 100 万 token),该方法在长上下文语言建模基准测试中的性能优于基线,Transformer 架构就一直主导着生成式人工智能领域 。在 500K 长度的书籍摘要任务上达到了新的 SOTA 结果 。不同于传统的 Transformer 使用局部注意力丢弃旧片段 ,他们更新了 Transformer 架构,几天前,谷歌引入了一种有效的方法,
本文贡献总结如下 :
引入了一种实用且强大的注意力机制 Infini-attention—— 具有长期压缩内存和局部因果注意力 ,输出时会聚合当前上下文信息以及压缩内存中的信息 ,谷歌Infini-Transformer终结上下文长度之争 2024年04月12日 19:19 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间
不知 Gemini 1.5 Pro 是否用到了这项技术 。可以为 LLM 提供高效的计算。论文展示了具有 Infini-attention 的 8B 模型经过持续的预训练和任务微调,没过几天,
实验表明,
自 2017 年开创性研究论文《Attention is All You Need》问世以来 ,使用该技术 ,上下文长度为 2048 的 500B 模型 ,发布下一代 Transformer 模型 Infini-Transformer 。在有限的内存和计算资源下扩展到无限长的上下文 。谷歌又放出了这项新研究 。然而,部署成本也在增加 。并通过设计支持即插即用的持续预训练和长上下文自适应;
该方法使 Transformer LLM 能够通过流的方式处理极长的输入,而谷歌对 Transformer 的优化设计最近比较频繁 ,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入 ,但事实上 ,模型能处理 500K 的书籍摘要任务。
谷歌又放大招了,并以流的方式处理极长的输入进行计算。
![](https://n.sinaimg.cn/spider20240412/521/w1080h241/20240412/2fb1-6fbe69a2c771a3c2a0b1059278b07ffa.png)
Infini-attention 对标准缩放点积注意力( standard scaled dot-product attention)进行了最小的改变,直接扩展到无限长 ,可以将使用后的旧片段存储到压缩内存中,此外该研究发现 ,即 Transformer 中的注意力机制在内存占用和计算时间上都表现出二次复杂性。
专注 AI 领域的研究者都了解内存的重要性 ,发布 Mixture-of-Depths(MoD) ,它是智能的基石,
该方法使 Transformer LLM 在有限内存的情况下扩展到无限长上下文 ,研究者成功将一个 1B 的模型上下文长度提高到 100 万;应用到 8B 模型上,
本文地址:http://tieling.tanzutw.com/html/01e699957.html
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。