今天看啥  ›  专栏  ›  算法与数据结构

大模型训练为什么用 A100 不用 4090

算法与数据结构  · 公众号  · 算法  · 2024-03-21 11:38
来自:知乎,作者:李博杰链接:https://zhuanlan.zhihu.com/p/655402388这是一个好问题。先说结论,大模型的训练用 4090 是不行的,但推理(inference/serving)用 4090 不仅可行,在性价比上还能比 H100 稍高。4090 如果极致优化,性价比甚至可以达到 H100 的 2 倍。事实上,H100/A100 和 4090 最大的区别就在通信和内存上,算力差距不大。H100A1004090Tensor FP16 算力989 Tflops312 Tflops330 TflopsTensor FP32 算力495 Tflops156 Tflops83 Tflops内存容量80 GB80 GB24 GB内存带宽3.35 TB/s2 TB/s1 TB/s通信带宽900 GB/s900 GB/s64 GB/s通信时延~1 us~1 us~10 us售价40000$15000$1600NVIDIA 的算力表里面油水很多,比如 H100 TF16 算力写的是 1979 Tflops,但那是加了 sparsity(稀疏)的,稠密的算力只有一半;4090 官方宣传 Tensor Core 算力高达 1321 Tflops,但那是 int8 的,FP16 直只有 330 Tflops。这篇文章的第一版就是用了错的数据,H100 和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照