今天看啥  ›  专栏  ›  AIforResearch

1000万token大海寻针:递归记忆法找到了大模型忽略的内容 | 指令多样性是任务泛化的关键 | 用小模型为大模型选择微调数据

AIforResearch  · 公众号  ·  · 2024-02-19 17:19
前言:论文可以让你更快地了解最新研究进展,掌握最新的技术和理论。这对于自身的科研能力和竞争力非常重要,尤其是在快速发展的学科领域,下面小编带你来看大模型最近的研究成果。1. 在1000万token的大海中寻针:递归记忆法找到了大模型忽略的内容  标题:In Search of Needles in a 10M Haystack: Recurrent Memory Finds What LLMs  Miss  关键词:长文档处理、递归记忆、长序列处理  作者:Yuri Kuratov, Aydar Bulatov, Petr Anokhin  分析:本文解决了使用生成式Transform模型处理长文档的挑战。为了评估不同的方法,作者引入了BABILong,这是一个新的基准测试,旨在评估模型在提取和处理广泛文本中分布式事实的能力。评估了包括对GPT-4和RAG的基准测试,揭示了常用方法仅对最多104个元素的序列有效。相比之下,通过对GPT-2进行微调并增加循环记忆功能,使其能够处理最 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照