注册登录

专栏名称: 机器学习算法与自然语言处理

一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

参考消息 · 中方：美代表散布涉华谎言· 17 小时前

参考消息 · 德防长：给三套了，不能再多· 昨天

参考消息 · 乌与美日分别签署双边安全协议· 昨天

卢克文工作室 · 崩了，消失的西方优势论· 3 天前

卢克文工作室 · 一件顶N件的完美防晒衣，透气！轻薄！速干！夏 ...· 5 天前

今天看啥 › 专栏 › 机器学习算法与自然语言处理

【BERT】为什么Bert的三个Embedding可以进行相加？

机器学习算法与自然语言处理 · 公众号 · · 2020-03-11 09:06

公众号关注 “ML_NLP”设为 “星标”，重磅干货，第一时间送达！来自 | 知乎地址 | https://www.zhihu.com/question/374835153/answer/1069173198作者 | Tower编辑 | 机器学习算法与自然语言处理公众号本文仅作学术分享，若侵权，请联系后台删文处理这个问题已经有很多回答了，但多是数学层面而非业务层面的：embedding 相加和 XXX 等价，但问题是 XXX 这样建模难道就是对的吗？这种解释并不解决“相加后向量的大小和方向就变了，语义不就变了吗？”这个疑惑。模型拿到的是三个向量的和，它怎么知道原来的向量是哪三个呢？坦白讲这个问题我也没有完全想通，我觉得唯一合理的解释是空间维度很高，所以模型总能分开各个组分。举个例子，假设词表大小 50k，segment 只有 2 种，position ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

参考消息 · 中方：美代表散布涉华谎言

17 小时前

参考消息 · 德防长：给三套了，不能再多

昨天

参考消息 · 乌与美日分别签署双边安全协议

昨天

卢克文工作室 · 崩了，消失的西方优势论

3 天前

卢克文工作室 · 一件顶N件的完美防晒衣，透气！轻薄！速干！夏日必备神器~

5 天前

九坤投资 · 九坤市场周报（01.08-01.12）｜Market Review

5 月前

Rebase社区 · Web3 极客日报 #1143

1 年前

路人锋 · 三月

3 年前

5G新商机 · 读万卷书不如行万里路，行万里路不如名师点悟！

3 年前

中扑网 · 你们用着6到飞起的曹操张飞周瑜，在扑克里就是坑货！

7 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号