看啥推荐读物

专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

如何为LLM推理任务选择正确的GPU

GiantPandaCV · 公众号 · 3D · 2024-04-04 20:02

作者丨方佳瑞来源丨https://zhuanlan.zhihu.com/p/686633846编辑丨GiantPandaCV去年十月，美商务部禁令的出现，使中国客户无法使用NVIDIA H100/H200旗舰芯片。一时间，各种NV存货、中国限定卡型、其他厂商NPU纷至沓来。在大模型推理场景中，如何客观比较不同硬件的能力，成为一大难题，比如：Q1：输入输出都很长，应该选H20还是A800？Q2：高并发情况下，用L20还是RTX 4090？最直接的解决方法是，使用SOTA推理服务框架，对不同硬件X不同负载做全面的评估。但是，大模型任务推理的负载变化范围很大，导致全面评估耗时耗力。主要来源以下几个方面：输入参数batch size、input sequence length、output sequence length变化多样。大模型种类很多，从7B到170B，不同尺寸模型都有。硬件种类很多。参考许欣然的文章，备选的NVIDIA GPU就有15种，而且还有其他厂商的硬件。一个不注水的显 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博