专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

几种常用的位置编码介绍及pytorch实现

关于NLP那些你不知道的事 · 公众号 · · 2024-07-29 07:00

文章预览

作者：高瞻远原文地址： https://zhuanlan.zhihu.com/p/674133494 引言在NLP任务中(后续拓展为多模态任务)，顺序信息至关重要，例如: 我借给你300块与你借给我300块具有完全不同的含义。对于Transformer模型来说，由于Attention模块的无序性(无法区分不同位置的Token)，必须加入额外的信息来记录顺序，这里引入了位置编码。位置编码在后续基于Transformer架构的文章中有很多不同的实现方式，尤其是在大语言模型大行其道的现在，在面对长token的输入时，挑选合适的位置编码也会提升训练的效果。本文整理主流模型的位置编码实现方式，并用torch实现以加深理解。位置编码从实现方式上大致可以分为2类: 绝对位置编码: 将位置信息融入到输入中相对位置编码: 微调Attention结构，使其可以分辨不同位置的Token 绝对位置编码在输入的第k个向量 xk 中加入位置向 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博