看啥推荐读物
专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
今天看啥  ›  专栏  ›  GiantPandaCV

如何为LLM推理任务选择正确的GPU

GiantPandaCV  · 公众号  · 3D  · 2024-04-04 20:02
作者丨方佳瑞来源丨https://zhuanlan.zhihu.com/p/686633846编辑丨GiantPandaCV去年十月,美商务部禁令的出现,使中国客户无法使用NVIDIA H100/H200旗舰芯片。一时间,各种NV存货、中国限定卡型、其他厂商NPU纷至沓来。在大模型推理场景中,如何客观比较不同硬件的能力,成为一大难题,比如:Q1:输入输出都很长,应该选H20还是A800?Q2:高并发情况下,用L20还是RTX 4090?最直接的解决方法是,使用SOTA推理服务框架,对不同硬件X不同负载做全面的评估。但是,大模型任务推理的负载变化范围很大,导致全面评估耗时耗力。主要来源以下几个方面:输入参数batch size、input sequence length、output sequence length变化多样。大模型种类很多,从7B到170B,不同尺寸模型都有。硬件种类很多。参考许欣然的文章,备选的NVIDIA GPU就有15种,而且还有其他厂商的硬件。一个不注水的显 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照