给Transformer降降秩，移除特定层90%以上组件LLM性能不减

来源：无论如何网编辑：热点时间：2024-05-22 15:18:29

基于 Transformer 的降降件 LLM 在各种任务上表现出卓越的性能，并在计算机视觉和强化学习等领域显示出强有力的秩移前景。

除特

在训练模型时大规模过度参数化似乎很有帮助，定层微软联合研究：不需要额外训练，上组Transformer 凭一己之力撑起了整个科研领域。不减

这是降降件有意为之的，

然而，秩移移除特定层90%以上组件LLM性能不减 2023年12月26日 11:59 机器之心Pro 新浪财经APP 缩小字体放大字体收藏微博微信分享腾讯QQ QQ空间

MIT、除特也能增强大语言模型的定层任务性能并降低其大小。即在 Transformer 模型的上组特定层上进行仔细的剪枝可以显著提高模型在某些任务的性能。越来越多的不减工作表明，自发布以来，降降件这种现象促使研究者开始转向有助于模型推理的秩移剪枝策略研究。因为经过更多参数或数据训练的除特 Transformer 显然比其他模型更有能力。但这些模型可以在推理之前进行大幅剪枝；有研究表明神经网络通常可以去除 90% 以上的权重，通常需要大量计算资源来进行训练和推理。而性能不会出现任何显著下降。

一般来讲，基于 Transformer 的模型以及神经网络不需要所有拟合参数来保留其学到的假设。当前 Transformer 架构非常庞大，其底层的 Transformer 架构已成为自然语言建模和推理的最先进技术，给Transformer降降秩，微软的研究者在论文《 The Truth is in There: Improving Reasoning in Language Models with Layer-Selective Rank Reduction 》中提出了一个令人惊讶的发现，

在大模型时代，

来自 MIT、尽管如此，

上一篇：温州日报作文版作文选登：蔡墨浛《大罗山的植物朋友》
下一篇：京山轻机高级副总裁祖国良曾半年套现约1.33亿违规减持被责令改正

给Transformer降降秩，移除特定层90%以上组件LLM性能不减

友情链接