专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

初探最大更新参数化muP:超参数的跨模型尺度迁移规律

PaperWeekly  · 公众号  · 科研  · 2025-03-30 20:32
    

文章预览

©PaperWeekly 原创 · 作者 |  苏剑林 单位 |  科学空间 研究方向  |  NLP 、神经网络 众所周知,完整训练一次大型 LLM 的成本是昂贵的,这就决定了我们不可能直接在大型 LLM 上反复测试超参数。一个很自然的想法是希望可以在同结构的小模型上仔细搜索超参数,找到最优组合后直接迁移到大模型上。 尽管这个想法很朴素,但要实现它并不平凡,它需要我们了解常见的超参数与模型尺度之间的缩放规律,而 muP 正是这个想法的一个实践。 muP,有时也写  ,全名是 Maximal Update Parametrization,出自论文《Tensor Programs V: Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer》 [1] ,随着 LLM 训练的普及,它逐渐已经成为了科学炼丹的事实标配之一。 方法大意 在接入主题之前,必须先吐槽一下 muP 原论文写得实在太过晦涩,并且结论的表达也不够清晰,平白增加了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览