社区供稿 | 封神榜团队揭秘大模型训练秘密：以数据为中心

HuggingFace · 公众号 · · 2023-11-10 23:58

近一年来，各种各样的开源和闭源的大语言模型，不断在多个中文英文的测试基准中刷新着记录。然而，大语言模型的开发仍然面临诸多挑战，比如从头开始训练大语言模型的高昂成本，以及继续预训练导致的灾难性遗忘等等。尽管许多研究致力于解决这些问题，但一个重要而且实际的限制是，许多研究过于追求扩大模型规模，没有全面分析和优化预训练数据在训练大语言模型过程中的使用。在这项联合中科大的工作中，我们提出了Ziya2，一个拥有130亿（13B）参数的模型。它使用LLaMA2作为基座模型，并进一步在7000亿（700B）个tokens上进行继续预训练。我们重点关注继续预训练的相关技术，并使用Data-centric的相关方法来增强Ziya2在不同预训练阶段的学习过程。实验结果表明，Ziya2在多个基准测试中的表现显著优于其他规模相似的开源预训练模型。论文 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博