专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

【LLM基础知识】LLMs-位置编码知识总结笔记v3.0

AINLP  · 公众号  ·  · 2024-07-19 21:19
    

文章预览

【导读】:本文是LLM知识点第三篇,介绍LLM位置编码的三种方法,主要介绍绝对位置编码 sinusoidal位置编码,旋转位置编码RoPE , 相对位置编码ALiBi位置编码 。#接下来会更新围绕RoPE的改进编码和文本长度外推问题。 ‍ 位置编码PE概述 【1】提出位置编码PE的原因 提出位置编码的原因: 目前主流的LLM都是采用Transformer架构,Transformer架构效果好得益于其采用Attention机制。 虽然纯粹的Attention模块能捕获不同token之间的依赖关系,但是Attention模块无法捕获各个token在token序列中的位置信息。 换句话说就是,在token序列中每个token所处的位置对最终Attention计算结果不造成影响,这显然不符合直觉。就像“狗咬人”和“人咬狗”的含义显然是不同的。 因此,就需要在token序列中添加位置信息。 位置编码有 两种实现路径: a.想办法将位置信息融入到输入Embedding ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览