文章预览
腾讯科技《AI未来指北》 特约作者 郝博阳 编辑 郑可君 没有GPU Poor,只有卷得不够多。 DeepSeek-V3的横空出世,用一组惊人的数据完美诠释了这句话。 当o1、Claude、Gemini和Llama 3等模型还在为数亿美元的训练成本苦恼时, DeepSeek-V3用557.6万美元的预算,在2048个H800 GPU集群上仅花费3.7天/万亿tokens的训练时间,就达到了足以与它们比肩的性能 这个数字意味着什么? 每万亿tokens仅需180K个H800 GPU小时,总计278万 GPU小时的训练成本。而Llama 3.1的训练使用了16,384块Nvidia H100 GPU,总计2100多万GPU小时,翻了十倍。 通过671B的总参数量,在每个token激活37B参数的精准控制下,DeepSeek-V3用14.8万亿高质量多样化token,构建出了一个能够超越所有开源模型,直逼GPT-4和Claude-3.5的AI巨人。 推特上赞叹一片。 OpenAI早期成员安德烈·卡帕西(Andrej Karpathy)就表示DeepSeek-V3的出现也许意
………………………………