文章预览
2024-08-28 15:43
本条微博链接
Cerebras 也来抢 Groq 的生意了,推出世界上最快的 LLM 推理服务。 #ai# Llama 3.1 8B 的生成数独可以到每秒1800Token,70B 可以达到 450 Token。 且价格更优,分别为每百万个Token 10 美分和 60 美分。 目前每个为每个开发者每天提供 100 万个免费 Token。 先搞个 API 家人们。 Cerebras 推理采用第三代 Wafer Scale Engine(WSE-3),它拥有 21 兆字节 / 秒的内存带宽,能够存储整个模型在芯片上,从而消除了外部内存的需
………………………………