主要观点总结
Hotchips 2024年度大会在美国举行,各大处理器公司展示了他们的最新产品。NVIDIA Blackwell受到关注,其AI集群级别的构建意义重大。NVIDIA的FP4和FP6精度降低计算精度,以提高性能。NVIDIA Quasar用于确定可以使用较低精度的内容。NVIDIA表示AI模型正在不断发展,而PHY变得重要,因为NVLink传输数据比以太网更高效。NVLink从8个GPU到72个GPU都实现了这一目标。此外,NVLink交换芯片和交换tray可以推送大量数据。NVIDIA展示了GB200 NVL72和NVL36,NVL36适用于无法处理120kW机架的数据中心。 Spectrum-X和BlueField-3为以太网上的RDMA网络提供了组合解决方案。NVIDIA在AI初创公司面临的一个挑战是不仅制造当今的芯片、交换机、NIC等,还在进行前沿研究,以便下一代产品满足未来模型的需求。Tenstorrent展示了Blackhole,它是下一代独立AI计算机,配备140个Tensix++核心、16个CPU核心和一系列高速连接,提供高达790 TOPS的计算性能。Blackhole是2023年及以后的芯片,对上一代Grayskull和Wormhole进行了重大更新。英特尔带来了Lunar Lake和Granite Rapids-D,其中Lunar Lake是面向AI PC的下一代部件,而Granite Rapids-D是面向数据中心的最新至强6 SoC。Lunar Lake为不同的块使用不同的工艺节点,并包含片上内存。英特尔展示了Xe2 GPU架构,其矢量引擎从两个SIMD8结构转变为单个SIMD16结构。英特尔的NPU4从2个神经计算引擎增加到6个,计算能力达到48 TOPS。英特尔正在为其100GbE网络添加功能,并考虑移除PCIe以降低功耗需求。AMD介绍了Instinct MI300X架构,其中MI300A用于HPE El Capitan等超级计算机。AMD的CDNA3架构拥有192MB的HBM3,具有8堆栈HBM3内存阵列,容量高达192GB。MI300X可以作为单个分区运行,也可以在不同的内存和计算分区中运行。AMD的大平台是8路的MI300X OAM平台。Intel Gaudi 3直到Falcon Shores,英特尔的主要AI芯片都是Gaudi 3。我们在Hot Chips 2024上获得了一些新的细节,这一代增加了更多的计算能力、更多的内存带宽和容量。SK Hynix展示了其采用Xilinx Virtex FPGA和特殊GDDR6 AiM封装的GDDR6内存加速器卡,用于LLM推理。SambaNova SN40L RDU是该公司针对万亿参数规模人工智能模型时代的首款设计,具有三层内存,分别是520MB的片上SRAM、64GB的HBM和额外的DDR内存作为容量层。OpenAI发表了构建可扩展AI基础设施的主题演讲,强调了AI基础设施的重要性,并提到了未来计算的需求。
关键观点总结
关键观点1: NVIDIA Blackwell备受关注,其AI集群级别构建意义重大。
NVIDIA Blackwell平台涵盖从CPU和GPU计算到用于互连的不同类型网络,不仅限于GPU。
关键观点2: NVIDIA的FP4和FP6精度降低计算精度,以提高性能。
NVIDIA Quasar用于确定可以使用较低精度的内容,减少计算和存储。
关键观点3: NVIDIA表示AI模型正在不断发展,而PHY变得重要,因为NVLink传输数据比以太网更高效。
NVLink从8个GPU到72个GPU都实现了这一目标,NVLink交换芯片和交换tray可以推送大量数据。
关键观点4: Tenstorrent展示了Blackhole,它是下一代独立AI计算机,提供高达790 TOPS的计算性能。
Blackhole是2023年及以后的芯片,对上一代Grayskull和Wormhole进行了重大更新。
关键观点5: 英特尔带来了Lunar Lake和Granite Rapids-D,Lunar Lake是面向AI PC的下一代部件,而Granite Rapids-D是面向数据中心的最新至强6 SoC。
Lunar Lake为不同的块使用不同的工艺节点,并包含片上内存。英特尔展示了Xe2 GPU架构,其矢量引擎从两个SIMD8结构转变为单个SIMD16结构。
关键观点6: AMD介绍了Instinct MI300X架构,其中MI300A用于HPE El Capitan等超级计算机。
AMD的CDNA3架构拥有192MB的HBM3,具有8堆栈HBM3内存阵列,容量高达192GB。MI300X可以作为单个分区运行,也可以在不同的内存和计算分区中运行。
关键观点7: SK Hynix展示了其采用Xilinx Virtex FPGA和特殊GDDR6 AiM封装的GDDR6内存加速器卡,用于LLM推理。
SambaNova SN40L RDU是该公司针对万亿参数规模人工智能模型时代的首款设计,具有三层内存,分别是520MB的片上SRAM、64GB的HBM和额外的DDR内存作为容量层。
关键观点8: OpenAI发表了构建可扩展AI基础设施的主题演讲,强调了AI基础设施的重要性,并提到了未来计算的需求。
OpenAI认为AI需要大量投资,因为计算能力的提升已经产生了超过8个数量级的效益。
免责声明
免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。
原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过
【版权申诉通道】联系我们处理。