今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

使用Qwen-Agent将上下文记忆扩展到百万量级

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-11 09:05
    

文章预览

原文:使用Qwen-Agent将上下文记忆扩展到百万量级 https://qwenlm.github.io/zh/blog/qwen-agent-2405/ TLDR:    Qwen开发了一个Agent(智能体)用于理解包含百万字词的文档,虽然仅使用Qwen2模型的8k上下文,但效果超过RAG和长序列原生模型。我们还利用此智能体合成长上下文数据,用于训练长上下文的Qwen模型。 引言 近期,能够原生处理数百万字输入的大型语言模型(LLMs)成为了一种趋势。大部分工作集中在模型架构调整,如位置编码扩展或线性注意力机制等。然而,准备足够长度的微调数据作为讨论较少但同样重要的议题,却鲜少被提及。 我们采取以下方法准备数据: 利用一个较弱的8k上下文聊天模型构建一个相对强大的智能体,能够处理1M的上下文。 随后,使用该智能体合成微调数据,并应用自动化过滤确保数据质量。 最终,使用合成数据对预训练模型进行 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览