一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

为什么Bert的三个Embedding可以进行相加?

机器学习算法与自然语言处理  · 公众号  ·  · 2020-10-16 09:05
公众号关注 “ML_NLP”设为 “星标”,重磅干货,第一时间送达!整理:zenRRan来自:深度学习自然语言处理公众号学术分享,侵删~知乎问题:Token Embedding、Segment Embedding、Position Embedding的意义我已经清楚了,但是这三个向量为什么可以相加呢?相加后向量的大小和方向就变了,语义不就变了吗?(可能是我数学学得不好,不能理解)链接:https://www.zhihu.com/question/374835153高赞一:苏剑林高赞一:苏剑林那只能说明你还不了解Embedding的意义。Embedding的数学本质,就是以one hot为输入的单层全连接。请参考: https://kexue.fm/archives/4122也就是说,世界上本没什么Embedding,有的只是one hot。现在我们将token,position,segment三者都用one hot表示,然后concat起来,然后才去过一个单层全连接, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照