看啥推荐读物
专栏名称: GitCube
专注于分享 Python、Java、AI、Web 等多个计算机科学领域的优质学习资源及开发者工具。
今天看啥  ›  专栏  ›  GitCube

GitHub 热榜:SwiftInfer 开源,AI 对话速度一飞冲天!

GitCube  · 公众号  ·  · 2024-01-08 13:35
公众号关注 “GitCube”设为 “星标”,每天带你逛 GitHub!在大型语言模型(LLM)的世界中,处理多轮对话一直是一个挑战。前不久,麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM,能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共 400 万个 token 的流式输入,22.2 倍的推理速度提升。但 StreamingLLM 使用原生 PyTorch 实现,对于多轮对话推理场景落地应用的低成本、低延迟、高吞吐等需求仍有优化空间。因此,知名 AI 框架 Colossal-AI 开源了 SwiftInfer,基于 TensorRT 实现了 StreamingLLM,可以 进一步提升大模型推理性能 46%,为多轮对话推理提供了高效可靠的落地方案。GitHub 开源地址:https://github.com/hpcaitech/SwiftInferStreamingLLM 简介大语言模型能够记住的上下文长度,直接影响了 ChatGPT 等大模型应用与用户互动的质量。如何让 LLM 在多轮对话场景下保 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照