今天看啥  ›  专栏  ›  AI for Research

从模型训练时间预估最终模型loss, DeepMind 发布最新时间规模定律!适用于任何预算!

AI for Research  · 公众号  ·  · 2024-06-28 19:20
    

文章预览

前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、模型评估、优化器的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. 时间至关重要:适用于任何预算的规模法则   标题: Time Matters: Scaling Laws for Any Budget   机构: Google、Google DeepMind   相关领域: 模型评估、模型结构改进   作者: Itay Inbar,  Luke Sernau   分析: 本文 主要讨论了在训练大型模型时,主要成本驱动因素是实际的训练时间。作者指出,基于FLOPs(浮点运算次数)所做出的流行时间估计是不准确的,并提出了一种基于内存复制的更准确的代理方法。通过一些简单的核算,可以从变压器模型的超参数估算出训练速度。结合像Chinchilla那样的缩放律曲线,我们能够估计模型的最终损失。作者通过将估计值与真实数据拟合,使用线性回归,并将结果应用于重写Chinchilla,使其 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览