注册
登录
专栏名称:
AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
我也要提交微信公众号
今天看啥
公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词RSS订阅方法
知网期刊RSS订阅方法
即刻RSS订阅方法
目录
相关文章推荐
华商网
·
降雨今晚到!陕西最新天气预报→
·
昨天
今天看啥
›
专栏
›
AI TIME 论道
Big Model Weekly | 第31期
AI TIME 论道
·
公众号
· · 2024-07-27 10:00
文章预览
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies 研究对大规模语言模型(LLMs)的扩展主要集中在模型参数和训练数据规模上,忽视了词汇量大小的作用。本文通过训练从3300万到30亿参数的模型,并使用高达5000亿字符的不同词汇配置,研究了词汇量大小如何影响LLM扩展法则。作者提出了三种互补的方法来预测计算最优的词汇量大小:等FLOPs分析、导数估计和损失函数的参数拟合。本文方法得出了相同的结果,即最优词汇量大小取决于可用的计算预算,并且更大的模型值得拥有更大的词汇量。然而,大多数LLMs使用的词汇量过小。例如,预测Llama2-70B的最优词汇量应该是至少21.6万,比其32K的词汇量大7倍。本文通过在不同的FLOPs预算下训练3B参数的模型,实证验证了预测。采用预测的最优词汇 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
华商网
·
降雨今晚到!陕西最新天气预报→
昨天
催化进展
·
AFM: 缺陷桥接的不对称催化位点实现高效的膜基纳米限域催化!
1 年前
我的钢铁网
·
6家钢厂降价,钢坯降20元,钢价偏弱运行
1 年前
车中旭霞
·
深度 | eVTOL行业专题:低空经济的先导产业,飞行汽车商业化渐近【国信汽车】
1 年前