看啥推荐读物
专栏名称: NLPPaperWeekly
论文学习,主要关注nlp,对话系统,大模型,多模态等领域的论文
今天看啥  ›  专栏  ›  NLPPaperWeekly

符尧:仅靠数据工程我能将LLM的上下文检索能力拓展到128K

NLPPaperWeekly  · 公众号  ·  · 2024-03-07 12:42
大家好,我是HxShine今天要分享的是一篇符尧大佬一作的文章。Title: Data Engineering for Scaling Language Models to 128K Context。该文章主要通过研究语言模型的数据工程问题,来将模型上下文长度到128K。其方法也非常简单,作者在前面研究的工作上,详细研究了训练数据的分布情况,通过对训练数据的数量、分布、采样方法、训练长度等方面进行适当的调整,即可将大模型的上下文检索能力成功拓展到128K。可以看出作者在大模型数据工程侧做了非常细致的思考和分析,或许大模型数据工程和算法同等重要,也期待LLM更多的能力也可以通过数据工程来拓展和挖掘!• Title: Data Engineering for Scaling Language Models to 128K Context• URL: https://arxiv.org/abs/2402.10171• 代码:https://github.com/FranxYao/Long-Context-Data-Engineering• Authors: Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajish ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照