看啥推荐读物
专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
今天看啥  ›  专栏  ›  GiantPandaCV

大模型推理核心技术之Continuous Batching和我的WXG往事

GiantPandaCV  · 公众号  · 3D  · 2024-04-05 22:03
作者丨方佳瑞来源丨https://zhuanlan.zhihu.com/p/676109470编辑丨GiantPandaCVContinuous Batching现已成为大型模型推理框架的关键技术,也是框架性能优化的主战场。通过将多个在线请求进行批处理(Batching),可以提高 GPU 的使用效率。在 Transformer 出现之前,在模型服务过程中,Batching功能通常由一个与推理框架分离的服务框架来完成,例如 tfserving之于TensorFlow XLA和NVIDIA Triton之于TensorTR。这些框架的Batching设计是针对具有相同形状的输入请求,如相同尺寸的图像。然而,Transformer 的出现使得输入序列和批次大小都变得可变,这为Batching带来了新的挑战和机遇。最近系统看了一下Continuous Batching的工作,让我回忆起了在腾讯微信(WXG)工作时的一段往事。2019年下半年,我校招加入微信WeChat AI做了一个Transformer模型的推理服务框架TurboTransformers,目的是对标FasterTransformer ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照