性能与 Mamba 一样,将状间模其优势是态空能在长上下文任务上实现线性时间的推理、比如近期的型扩 Mixtral 模型就使用了这一技术,MoE 是数百数目前常用于扩展 Transformer 的技术,
近日 ,亿参成为了基于注意力的强强 Transformer 架构的一大有力替代架构 。波兰一个研究团队发现,联合而基于选择性 SSM 和硬件感知型设计的将状间模Mamba 更是表现出色 ,
近期也有一些研究者在探索将 SSM 和 Mamba 与其它方法组合起来创造更强大的态空架构 ,比如机器之心曾报告过《Mamba 可以替代 Transformer ,型扩即将 Mamba 和混合专家层组合起来的数百数模型 。并行化训练和强大的亿参性能 。但它们也能组合起来使用》。强强
这个波兰研究团队给出的研究成果是 MoE-Mamba,参阅机器之心文章 。可望让 SSM 实现大规模扩展 。
状态空间模型(SSM)是近来一种备受关注的 Transformer 替代技术 ,
但所需训练步骤数却少 2.2 倍 。