今天看啥  ›  专栏  ›  InfoQ

三个月建成“世界最大”Nvidia GPU 计算集群,马斯克:不够,还要再加 10 万个

InfoQ  · 公众号  · 科技媒体  · 2024-09-15 10:23
    

文章预览

作者 | 褚杏娟 9 月 2 日,马斯克发文称,其人工智能公司 xAI 的团队已经上线了一台被称为“Colossus”的训练集群,总共有 100000 个英伟达的 H100 GPU。 马斯克表示,他的团队花了 122 天才完成 Colossus 的上线过程。由于 xAI 在 6 月份才选定孟菲斯作为其所在地,因此 Colossus 的部署速度可以说是非常快的。马斯克表示,在接下来的几个月里,Colossus 的规模将扩大一倍,达到 200,000 个 GPU,其中 5 万个是更为先进的 H200。 一位 X 用户指出,这一发展的实际规模超过了迄今为止发布的每个主要模型。相比之下,OpenAI 最强大的模型才使用了 80000 个 GPU。 Nvidia 的 H200 是市场上最抢手的芯片之一,尽管最近被该公司于 2024 年 3 月推出的最新 Blackwell 芯片超越。相比之下,H200 配备 141 GB 的 HBM3E 内存和 4.8 TB/s 的带宽,Blackwell 的最高容量比 H200 高出 36.2%,总带宽高出 6 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览