专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

如何从Meta窃取价值百万的Scaling Law数据

AINLP · 公众号 · · 2024-07-28 19:25

文章预览

Surprise surprise 恭喜你被骗了，这里的一切内容都是合法且符合中国特色社会主义价值观的。背景开源皇帝meta最近推出新的开源模型llama 3.1，其中最大的模型尺寸来到了巨大的405B。到底有多大呢，只是把fp16的文件下载下来就需要1T的硬盘空间。而且不仅是尺寸大，训练数据量更是达到了15T，不禁让人对llama4的配置进行联想。事实上单纯考虑405B模型的训练时间的话，并不算特别长，粗略的计算一下训练时间在2个月左右，计算过程我写在下面：总的计算量是：3.8e12 算力使用情况表使用论文中的数据，16384卡，单卡TFLOPS为400。训练天数=3.8e25 / 400e12 / 16384 / 24 / 3600 = 67天为了想明白meta下一步的计划，就必须要用到scaling law了，这也符合meta的风格，他们依靠公式指引去规划下一代的模型。 llama3 的scaling law 论文中关于scaling law的图表 meta的scaling law分为2部 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博