今天看啥  ›  专栏  ›  三思行研

Groq LPU-“最快”AI推理芯片

三思行研  · 公众号  ·  · 2024-02-20 20:40
一、事件:在2024年1月15日 LPU(Language Processing Unit)初创公司“Groq”推出Groq API之后,近日在一些公开测评、客户测试中,Groq LPU均在延时(Latency)、吞吐量(Throughput)等指标上横扫竞品,大受好评。根据Groq官网,其为开源LLM模型的运行提供了全球最快的推理速度。当前官网提供了两个开源模型的演示:在Mixtral8x7B-32k的生成速度接近500 token/s,在Llama 2 70B-4k接近300 token/s。(资料来源:Groq官网)二、快评:性能指标:Groq LPU在延时指标(Latency)、吞吐量(Throughput)等指标上横扫竞品延时(Latency):显著小于多数竞品(资料来源:Groq官网)吞吐量(Throughput):显著高于多数竞品(资料来源:Groq官网)定价:显著低于竞品进入Groq主页,目前有两种可以自选的模型:Mixtral8x7B-32k,Llama 2 70B-4k。我们以同一个模型(Llama 2 70B-4k)为例,比较Groq平台的推理 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照