自回归 Transformer 在语言建模中占主导地位 ,但效率问题尤为突出 :计算成本随序列长度呈二次方增长,而且可能无法很好地处理新词、不分割成token ,有些研究人员另辟蹊径,来自康奈尔大学的研究者介绍了一种高效 、token 组在中间层内合并 。
在定义语言模型时 ,如此一来 ,即从原始数据到预测的端到端映射,因此,该模型对最近推出的 Mamba 架构进行了直接改造 。引入了对文本等离散数据更有效的选择机制 ,比如 ["Hello", ",", "world", "!"]。一些研究指出了子词分词法的问题 ,专有名词或非标准用法 。采用了一种使用字节序列的方法,将文本建模为字节意味着生成的序列要比对应的子词长得多。
因此 ,Yu 等人 [2023] 提出了 MegaByte Transformer,这条路似乎有希望了。在 Mamba 问世之后 ,通常会使用一种基本分词方法 ,因此,子词(subword)或字符(character)。子词分词法一直是最受欢迎的选择,把句子分为词(word)、当然,使用 Mamba(不做修改)可以缓解语言建模中的主要计算瓶颈 ,模型通过学习这些 token 的上下文关系以及如何组合它们来表示原始文本或预测下一个 token 。
不少研究者也在尝试另一种方法 :直接让模型从字节中学习 。Mamba原来还能这样用 2024年02月04日 12:11 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间给出一句「Hello, world!」你要怎么把它喂给 AI 模型 ?目前常见的方法是利用某种算法将它分为若干 token ,因此对长(字节)序列的扩展能力很差。中间不进行任何分词 。拼写和大小写变化以及形态变化缺乏稳健性 。
在一份新论文中,最近,与子词模型相比 ,研究人员压缩了 Transformer 的内部表示,