整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
目录
相关文章推荐
运维  ·  平替Navicat ... ·  昨天  
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

几种常用的位置编码介绍及pytorch实现

关于NLP那些你不知道的事  · 公众号  ·  · 2024-07-29 07:00
    

文章预览

作者:高瞻远 原 文 地址: https://zhuanlan.zhihu.com/p/674133494 引言 在NLP任务中(后续拓展为多模态任务),顺序信息至关重要,例如: 我借给你300块与你借给我300块具有完全不同的含义。 对于Transformer模型来说,由于Attention模块的无序性(无法区分不同位置的Token),必须加入额外的信息来记录顺序,这里引入了位置编码。位置编码在后续基于Transformer架构的文章中有很多不同的实现方式,尤其是在大语言模型大行其道的现在,在面对长token的输入时,挑选合适的位置编码也会提升训练的效果。本文整理主流模型的位置编码实现方式,并用torch实现以加深理解。 位置编码从实现方式上大致可以分为2类: 绝对位置编码: 将位置信息融入到输入中 相对位置编码: 微调Attention结构,使其可以分辨不同位置的Token 绝对位置编码 在输入的第k个向量 xk 中加入位置向 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览