作者丨方佳瑞来源丨https://zhuanlan.zhihu.com/p/686633846编辑丨GiantPandaCV去年十月,美商务部禁令的出现,使中国客户无法使用NVIDIA H100/H200旗舰芯片。一时间,各种NV存货、中国限定卡型、其他厂商NPU纷至沓来。在大模型推理场景中,如何客观比较不同硬件的能力,成为一大难题,比如:Q1:输入输出都很长,应该选H20还是A800?Q2:高并发情况下,用L20还是RTX 4090?最直接的解决方法是,使用SOTA推理服务框架,对不同硬件X不同负载做全面的评估。但是,大模型任务推理的负载变化范围很大,导致全面评估耗时耗力。主要来源以下几个方面:输入参数batch size、input sequence length、output sequence length变化多样。大模型种类很多,从7B到170B,不同尺寸模型都有。硬件种类很多。参考许欣然的文章,备选的NVIDIA GPU就有15种,而且还有其他厂商的硬件。一个不注水的显
………………………………