为什么Bert的三个Embedding可以进行相加？

机器学习算法与自然语言处理 · 公众号 · · 2020-10-16 09:05

公众号关注 “ML_NLP”设为 “星标”，重磅干货，第一时间送达！整理：zenRRan来自：深度学习自然语言处理公众号学术分享，侵删~知乎问题：Token Embedding、Segment Embedding、Position Embedding的意义我已经清楚了，但是这三个向量为什么可以相加呢？相加后向量的大小和方向就变了，语义不就变了吗？（可能是我数学学得不好，不能理解）链接：https://www.zhihu.com/question/374835153高赞一：苏剑林高赞一：苏剑林那只能说明你还不了解Embedding的意义。Embedding的数学本质，就是以one hot为输入的单层全连接。请参考: https://kexue.fm/archives/4122也就是说，世界上本没什么Embedding，有的只是one hot。现在我们将token,position,segment三者都用one hot表示，然后concat起来，然后才去过一个单层全连接， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博