1000万token大海寻针：递归记忆法找到了大模型忽略的内容 | 指令多样性是任务泛化的关键 | 用小模型为大模型选择微调数据

AIforResearch · 公众号 · · 2024-02-19 17:19

前言：论文可以让你更快地了解最新研究进展，掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要，尤其是在快速发展的学科领域，下面小编带你来看大模型最近的研究成果。1. 在1000万token的大海中寻针：递归记忆法找到了大模型忽略的内容标题：In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs Miss 关键词：长文档处理、递归记忆、长序列处理作者：Yuri Kuratov, Aydar Bulatov, Petr Anokhin 分析：本文解决了使用生成式Transform模型处理长文档的挑战。为了评估不同的方法，作者引入了BABILong，这是一个新的基准测试，旨在评估模型在提取和处理广泛文本中分布式事实的能力。评估了包括对GPT-4和RAG的基准测试，揭示了常用方法仅对最多104个元素的序列有效。相比之下，通过对GPT-2进行微调并增加循环记忆功能，使其能够处理最 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博