一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

【BERT】为什么Bert的三个Embedding可以进行相加?

机器学习算法与自然语言处理  · 公众号  ·  · 2020-03-11 09:06
公众号关注 “ML_NLP”设为 “星标”,重磅干货,第一时间送达!来自 | 知乎地址 | https://www.zhihu.com/question/374835153/answer/1069173198作者 | Tower编辑 | 机器学习算法与自然语言处理公众号本文仅作学术分享,若侵权,请联系后台删文处理这个问题已经有很多回答了,但多是数学层面而非业务层面的:embedding 相加和 XXX 等价,但问题是 XXX 这样建模难道就是对的吗?这种解释并不解决“相加后向量的大小和方向就变了,语义不就变了吗?”这个疑惑。模型拿到的是三个向量的和,它怎么知道原来的向量是哪三个呢?坦白讲这个问题我也没有完全想通,我觉得唯一合理的解释是空间维度很高,所以模型总能分开各个组分。举个例子,假设词表大小 50k,segment 只有 2 种,position ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照