来源:机器学习研习院GPT (Generative Pre-Trained Transformer) 是 OpenAI 发布的一系列预训练模型,其目的就是以 Transformer 模型为基础,使用预训练技术,构建通用的文本模型。目前已经公布的模型有:文本预训练 GPT-1,GPT-2,GPT-3,图像预训练 iGPT,多模态预训练 GPT-4。最近非常热门的 ChatGPT 和今年年初公布的 InstructGPT 是一对姊妹模型,有时它们也被叫做 GPT3.5,其模型结构和训练方式都完全一致,即都使用了指示学习(Instruction Learning)和人工反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)来指导模型的训练,它们的不同仅仅是采集数据的方式有所差异。因此,要搞懂 ChatGPT,我们先从 InstructGPT 开始。背景知识在介绍 ChatGPT/InstructGPT 之前,我们先了解它们依赖的基础算法。1.GPT系列文本预训练模型 GPT-1,GPT-2,GPT-3 都采用的以 Transformer 为核心的结
………………………………