看啥推荐读物

专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

超细粒度分析XLNet中神奇的Attention Mask

PaperWeekly · 公众号 · 科研 · 2020-11-28 19:20

©PaperWeekly 原创 · 作者｜海晨威学校｜同济大学硕士生研究方向｜自然语言处理BERT 后时代，XLNet 在 20 个任务上超越 BERT，引起不小的关注。最重要的改进是 XLNet 实现了不在输入中加 [Mask] 标志，同样可以利用上下文信息，解决了 BERT 预训练和微调不一致的问题。1. XLNet 如何实现在不加 [Mask] 情况下利用上下文信息呢？XLNet 通过 Permutation Language Modeling（PLM）重排输入文本，使得当前词的下文也有可能出现在当前词的「上文」中，而实际的操作不是通过改变文本输入顺序来实现，而是依靠关键的 Attention Mask 机制来完成的。上图就是文中 Attention Mask 的机制，只看图并不是那么好理解，这里引用张俊林老师：XLNet：运行机制及和 Bert 的异同比较 [1] 文章中非常关键的一句话 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博