专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

今日arXiv最热大模型论文:清华大学:一个简单缩放让大模型利用长上下文能力提升15.2%

夕小瑶科技说  · 公众号  ·  · 2024-06-17 18:31
    

文章预览

夕小瑶科技说 原创 作者 | 谢年年 不知道大家发现没有,一些大模型的提示技巧总是习惯将一些重要指令或信息放在提示的开头或者结尾。 这是因为LLMs在处理上下文的时候容易出现“lost in the middle”的位置偏差,即 它们倾向于关注提示中开头和结尾的信息而忽略中间信息 。特别随着上下文越来越长,这种位置偏差带来的性能效果愈发严重。 这个问题是所有LLMs的通病,连像ChatGPT这样的强大模型也难以避免这一问题。文献[1]就指出,GPT-3.5-Turbo模型在试验多文档问答任务时,将答案放置在提示中间与末尾的性能差异高达22分。 这到底是怎么一回事?位置偏差的根源是什么?是否与LLMs的结构有关?我们又该如何减轻这一问题?接下来,我们将通过清华大学的一项研究来探讨这些问题。 论文标题 : Mitigate Position Bias in Large Language Models via Scaling a Single Dim ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览