Groq LPU-“最快”AI推理芯片

三思行研 · 公众号 · · 2024-02-20 20:40

一、事件：在2024年1月15日 LPU（Language Processing Unit）初创公司“Groq”推出Groq API之后，近日在一些公开测评、客户测试中，Groq LPU均在延时（Latency）、吞吐量（Throughput）等指标上横扫竞品，大受好评。根据Groq官网，其为开源LLM模型的运行提供了全球最快的推理速度。当前官网提供了两个开源模型的演示：在Mixtral8x7B-32k的生成速度接近500 token/s，在Llama 2 70B-4k接近300 token/s。（资料来源：Groq官网）二、快评：性能指标：Groq LPU在延时指标（Latency）、吞吐量（Throughput）等指标上横扫竞品延时（Latency）：显著小于多数竞品（资料来源：Groq官网）吞吐量（Throughput）：显著高于多数竞品（资料来源：Groq官网）定价：显著低于竞品进入Groq主页，目前有两种可以自选的模型：Mixtral8x7B-32k，Llama 2 70B-4k。我们以同一个模型（Llama 2 70B-4k）为例，比较Groq平台的推理 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博