修改Transformer结构，设计一个更快更好的MLM模型

机器学习算法与自然语言处理 · 公众号 · · 2020-09-19 00:00

公众号关注 “ML_NLP”设为 “星标”，重磅干货，第一时间送达！来源 | PaperWeekly©PaperWeekly 原创 · 作者｜苏剑林单位｜追一科技研究方向｜NLP、神经网络大家都知道，MLM (Masked Language Model) 是 BERT、RoBERTa 的预训练方式，顾名思义，就是 mask 掉原始序列的一些 token，然后让模型去预测这些被 mask 掉的 token。随着研究的深入，大家发现 MLM 不单单可以作为预训练方式，还能有很丰富的应用价值，比如笔者之前就发现直接加载 BERT 的 MLM 权重就可以当作 UniLM 来做 Seq2Seq 任务（参考这里），又比如发表在 ACL 2020 的 Spelling Error Correction with Soft-Masked BERT [1] 将 MLM 模型用于文本纠错。然而，仔细读过 BERT 的论文或者亲自尝试过的读者应该都知道，原始的 MLM 的训练效率是比较低的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博