文章预览
*来源: 西贝吹风 在AI大模型训练场景中,智算集群内网络架构的优劣对GPU服务器内外的集合通信存在极大影响,智算集群需支持万卡及以上的并行能力,因此,设计大规模、高可靠、低成本、易运维的优质网络架构,对于满足大模型训练的大算力、低时延和高吞吐需求具有重要意义。 本文我们就重点看一下业内的万卡、十万卡的组网方案,本文不做过多的技术方面的详细阐述,重点呈现给读者各厂家的大模型组网拓扑,满满的干货,下面的组网模型,基本都是各厂家公开信息中提及的,小编进行了细化,个别地方可能与实际情况略有出入,仅供参考! 多级CLOS架构组网 之前的文章中我们提到过基于叶脊交换机胖树架构,两层架构无法满足规模扩展时,可以采用类似Facebook的三层组网架构,增加一层Super-Spine来进行扩展。 这种架构采用1:1无收敛设
………………………………