专栏名称: AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

论文解读 | EMNLP2024 一种用于大语言模型版本更新的学习率路径切换训练范式

AI TIME 论道 · 公众号 · · 2024-12-24 18:00

文章预览

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入！点击阅读原文观看作者讲解回放！作者简介王志豪，厦门大学博士生刘诗雨，厦门大学硕士生内容简介新数据的不断涌现使版本更新成为大型语言模型（LLMs）不可或缺的需求。LLMs的版本更新训练范式包括从头预训练（PTFS）和继续预训练（CPT）。初步实验表明，PTFS在预训练性能上表现更好，而CPT的训练成本较低。此外，随着版本更新的进行，两种范式的性能和训练成本差距逐渐扩大。为探究这一现象的根本原因，作者分析了学习率对CPT的两个阶段的影响：准备初始化参数（checkpoint）和基于该checkpoint的继续预训练。研究表明，在第一阶段中使用较大学习率以及在第二阶段中使用具有完整率衰减过程的学习率对于LLMs的版本更新至关重要。因此，作者提出了一种基于学习率路径切换的训 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博