讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

在长上下文的大语言模型中Transformer 架构:综述

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-13 00:00
    

文章预览

24年2月南京大学的论文“Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey”。 目前的LLM主要是针对短文本片段进行预训练,这损害了它们处理实际场景中经常遇到长上下文提示的有效性。本文对基于 Transformer 的 LLM 架构最新进展进行了全面综述,旨在增强 LLM 在整个模型生命周期(从预训练到推理)中的长上下文功能。首先描述并分析当前基于 Transformer 的模型处理长上下文输入和输出的问题。然后,提供 Transformer 架构的分类和升级方案来解决这些问题。随后,针对长上下文 LLM 广泛使用的评估方法进行了调查,包括数据集、指标和基线模型,以及库、框架和编译器等优化工具包,提高 LLM 在这些不同阶段的效率。运行。最后,讨论未来研究的挑战和潜在途径。 Transformer 是一种复杂的深度神经网络模型,它集成了多种先前的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览