看啥推荐读物
一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
目录
相关文章推荐
加措上师语录  ·  追寻心灵之道·  14 小时前  
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

修改Transformer结构,设计一个更快更好的MLM模型

机器学习算法与自然语言处理  · 公众号  ·  · 2020-09-19 00:00
公众号关注 “ML_NLP”设为 “星标”,重磅干货,第一时间送达!来源 | PaperWeekly©PaperWeekly 原创 · 作者|苏剑林单位|追一科技研究方向|NLP、神经网络大家都知道,MLM (Masked Language Model) 是 BERT、RoBERTa 的预训练方式,顾名思义,就是 mask 掉原始序列的一些 token,然后让模型去预测这些被 mask 掉的 token。随着研究的深入,大家发现 MLM 不单单可以作为预训练方式,还能有很丰富的应用价值,比如笔者之前就发现直接加载 BERT 的 MLM 权重就可以当作 UniLM 来做 Seq2Seq 任务(参考这里),又比如发表在 ACL 2020 的 Spelling Error Correction with Soft-Masked BERT [1] 将 MLM 模型用于文本纠错。然而,仔细读过 BERT 的论文或者亲自尝试过的读者应该都知道,原始的 MLM 的训练效率是比较低的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照