今天看啥  ›  专栏  ›  HuggingFace

社区供稿 | 封神榜团队揭秘大模型训练秘密:以数据为中心

HuggingFace  · 公众号  ·  · 2023-11-10 23:58
近一年来,各种各样的开源和闭源的大语言模型,不断在多个中文英文的测试基准中刷新着记录。然而,大语言模型的开发仍然面临诸多挑战,比如从头开始训练大语言模型的高昂成本,以及继续预训练导致的灾难性遗忘等等。尽管许多研究致力于解决这些问题,但一个重要而且实际的限制是,许多研究过于追求扩大模型规模,没有全面分析和优化预训练数据在训练大语言模型过程中的使用。在这项联合中科大的工作中,我们提出了Ziya2,一个拥有130亿(13B)参数的模型。它使用LLaMA2作为基座模型,并进一步在7000亿(700B)个tokens上进行继续预训练。我们重点关注继续预训练的相关技术,并使用Data-centric的相关方法来增强Ziya2在不同预训练阶段的学习过程。实验结果表明,Ziya2在多个基准测试中的表现显著优于其他规模相似的开源预训练模型。论文 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照