专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

如何从Meta窃取价值百万的Scaling Law数据

AINLP  · 公众号  ·  · 2024-07-28 19:25
    

文章预览

Surprise surprise 恭喜你被骗了,这里的一切内容都是合法且符合中国特色社会主义价值观的。 背景 开源皇帝meta最近推出新的开源模型llama 3.1,其中最大的模型尺寸来到了巨大的405B。到底有多大呢,只是把fp16的文件下载下来就需要1T的硬盘空间。而且不仅是尺寸大,训练数据量更是达到了15T,不禁让人对llama4的配置进行联想。事实上单纯考虑405B模型的训练时间的话,并不算特别长,粗略的计算一下训练时间在2个月左右,计算过程我写在下面: 总的计算量是:3.8e12 算力使用情况表 使用论文中的数据,16384卡,单卡TFLOPS为400。 训练天数=3.8e25 / 400e12 / 16384 / 24 / 3600 = 67天 为了想明白meta下一步的计划,就必须要用到scaling law了,这也符合meta的风格,他们依靠公式指引去规划下一代的模型。 llama3 的scaling law 论文中关于scaling law的图表 meta的scaling law分为2部 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览