看啥推荐读物
专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
今天看啥  ›  专栏  ›  PaperWeekly

超细粒度分析XLNet中神奇的Attention Mask

PaperWeekly  · 公众号  · 科研  · 2020-11-28 19:20
©PaperWeekly 原创 · 作者|海晨威学校|同济大学硕士生研究方向|自然语言处理BERT 后时代,XLNet 在 20 个任务上超越 BERT,引起不小的关注。最重要的改进是 XLNet  实现了不在输入中加 [Mask] 标志,同样可以利用上下文信息,解决了 BERT 预训练和微调不一致的问题。1. XLNet 如何实现在不加 [Mask] 情况下利用上下文信息呢?XLNet 通过 Permutation Language Modeling(PLM)重排输入文本,使得当前词的下文也有可能出现在当前词的「上文」中,而实际的操作不是通过改变文本输入顺序来实现,而是依靠关键的 Attention Mask 机制来完成的。上图就是文中 Attention Mask 的机制,只看图并不是那么好理解,这里引用张俊林老师:XLNet:运行机制及和 Bert 的异同比较 [1] 文章中非常关键的一句话 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照