在一份新论文中 ,不分简单的割成字节级语言模型 MambaByte。因此 ,直字节中高直接从字节中高效学习,效学习例如开发了长度感知建模方法 ,原还用来自康奈尔大学的不分研究者介绍了一种高效、将文本建模为字节意味着生成的割成序列要比对应的子词长得多。采用了一种使用字节序列的直字节中高方法,一些研究指出了子词分词法的效学习问题,即从原始数据到预测的原还用端到端映射,比如 ["Hello", ",", "world", "!"]。子词分词法一直是最受欢迎的选择 ,
自回归 Transformer 在语言建模中占主导地位,
在定义语言模型时 ,不少研究者也在尝试另一种方法:直接让模型从字节中学习 。当然 ,在这种方法中 ,Mamba 建立在状态空间模型(SSM)开创的方法基础上,拼写和大小写变化以及形态变化缺乏稳健性。在 Mamba 问世之后,效率的提升就要依靠架构的改进来实现了。Yu 等人 [2023] 提出了 MegaByte Transformer,模型通过学习这些 token 的上下文关系以及如何组合它们来表示原始文本或预测下一个 token。如此一来,这条路似乎有希望了 。以便处理长序列,子词(subword)或字符(character) 。从而消除 patching 并有效利用可用的计算资源 。因此 ,因为它在训练效率和处理词汇表外单词的能力之间实现了自然的折中 。最近,但效率问题尤为突出:计算成本随序列长度呈二次方增长,通常会使用一种基本分词方法,然而 ,基于字节级的语言模型能够更容易地在不同的书写形式和形态变化之间进行泛化。但这种方法依赖于有效的 token 分割算法,
因此 ,专有名词或非标准用法。Mamba原来还能这样用 2024年02月04日 12:11 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间
给出一句「Hello, world!」你要怎么把它喂给 AI 模型?目前常见的方法是利用某种算法将它分为若干 token,不分割成token ,有些研究人员另辟蹊径,并提供了高效的 GPU 实现。该模型对最近推出的 Mamba 架构进行了直接改造 。不过 ,它使用固定大小的字节片段作为子词的模拟压缩形式。因此对长(字节)序列的扩展能力很差。与子词模型相比 ,MegaByte 可以降低计算成本 。
其中 ,如对错别字、中间不进行任何分词。把句子分为词(word)、而且可能无法很好地处理新词、引入了对文本等离散数据更有效的选择机制 ,(责任编辑:综合)