关于LLM预训练模型的综述

大语言模型和具身智体及自动驾驶 · 公众号 · · 2023-10-14 15:00

21年关于预训练的综述“Pre-trained models: Past, present and future”，来自清华、人大和复旦。由于复杂的预训练目标和庞大的模型参数，大规模预训练模型（PTM）可以有效地从大量标记和未标记的数据中获取知识。将知识存储到巨大的参数中并对特定任务进行微调，隐含在巨大参数中的丰富知识可以惠及各种下游任务，这已经通过实验验证和实证分析得到了广泛的证明。现在，人工智能社区的共识是采用PTM作为下游任务的主干，而不是从头开始学习模型。本文深入研究预训练的历史，特别是与迁移学习和自监督学习的特殊关系，揭示PTM在人工智能发展中的关键地位。此外，全面回顾PTM的最新突破。这些突破是由计算能力的激增和数据可用性增加而推动的，有四个重要方向：有效的架构设计、丰富的上下文利用、计算效率提高以及可解释和理论分析。最后 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博