看啥推荐读物

专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大模型推理核心技术之Continuous Batching和我的WXG往事

GiantPandaCV · 公众号 · 3D · 2024-04-05 22:03

作者丨方佳瑞来源丨https://zhuanlan.zhihu.com/p/676109470编辑丨GiantPandaCVContinuous Batching现已成为大型模型推理框架的关键技术，也是框架性能优化的主战场。通过将多个在线请求进行批处理（Batching），可以提高 GPU 的使用效率。在 Transformer 出现之前，在模型服务过程中，Batching功能通常由一个与推理框架分离的服务框架来完成，例如 tfserving之于TensorFlow XLA和NVIDIA Triton之于TensorTR。这些框架的Batching设计是针对具有相同形状的输入请求，如相同尺寸的图像。然而，Transformer 的出现使得输入序列和批次大小都变得可变，这为Batching带来了新的挑战和机遇。最近系统看了一下Continuous Batching的工作，让我回忆起了在腾讯微信（WXG）工作时的一段往事。2019年下半年，我校招加入微信WeChat AI做了一个Transformer模型的推理服务框架TurboTransformers，目的是对标FasterTransformer ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博