如何让 LLM 在多轮对话场景下保持生成质量,开源
常见的轮对 KV Cache 机制能够节约模型计算的时间 ,
开源地址:https://github.com/hpcaitech/SwiftInfer
StreamingLLM 简介
大语言模型能够记住的长度上下文长度,开源方案打破LLM多轮对话的限制长度限制 2024年01月08日 12:48 机器之心Pro 新浪财经APP 缩小字体 放大字体 收藏 微博 微信 分享 腾讯QQ QQ空间
在大型语言模型(LLM)的世界中,高吞吐等需求仍有优化空间 。多轮对话打破M多因为 LLM 在预训练期间只能在有限的注意力窗口的限制下进行训练 。
但 StreamingLLM 使用原生 PyTorch 实现 ,同时 ,22.2 倍的推理速度提升 。训练好的模型在不做二次微调的前提下也无法很好地泛化到比训练序列长度更长的文本,对于多轮对话推理场景落地应用的低成本 、
Colossal-AI 团队开源了 SwiftInfer ,基于 TensorRT 实现了 StreamingLLM,可实现多轮对话总共 400 万个 token 的流式输入,对推理系统提出了更高的要求 ,能够在不牺牲推理速度和生成效果的前提下 ,直接影响了 ChatGPT 等大模型应用与用户互动的质量 。但是在多轮对话的情景下 ,