符尧：仅靠数据工程我能将LLM的上下文检索能力拓展到128K

NLPPaperWeekly · 公众号 · · 2024-03-07 12:42

大家好，我是HxShine今天要分享的是一篇符尧大佬一作的文章。Title: Data Engineering for Scaling Language Models to 128K Context。该文章主要通过研究语言模型的数据工程问题，来将模型上下文长度到128K。其方法也非常简单，作者在前面研究的工作上，详细研究了训练数据的分布情况，通过对训练数据的数量、分布、采样方法、训练长度等方面进行适当的调整，即可将大模型的上下文检索能力成功拓展到128K。可以看出作者在大模型数据工程侧做了非常细致的思考和分析，或许大模型数据工程和算法同等重要，也期待LLM更多的能力也可以通过数据工程来拓展和挖掘！• Title: Data Engineering for Scaling Language Models to 128K Context• URL: https://arxiv.org/abs/2402.10171• 代码：https://github.com/FranxYao/Long-Context-Data-Engineering• Authors: Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajish ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博