BERT：我训练再久一点、数据量再大一点，就能重返SOTA

机器之心 · 公众号 · AI · 2019-07-19 19:32

机器之心报道参与：思源、张倩XLNet 冠军宝座还没坐热，剧情又一次发生反转。上个月，XLNet 在 20 项任务上全面超越了 BERT，创造了 NLP 预训练模型新记录，一时风光无两。但现在，XLNet 刚屠榜一个月，剧情再次发生反转：Facebook 的研究人员表示，如果训练得更久一点、数据再大一点，BERT 就能重返 SOTA。他们将改进版的 BERT 命名为 RoBERTa，目前已登上 GLUE 排行榜榜首。Facebook AI 说：「RoBERTa 的全名为 Robustly Optimized BERT pretraining Approach，我们采用了 BERT-Large，并通过更多的数据与更长的训练来提升预训练过程，最终的结果通过模型集成获得。」我们算下来，XLNet 用了 126GB 的纯文本，TPU 成本要花 6.14 万美元。如果 RoBERTa 训练资源还要多，那得有多少？从 BERT 到 XLNet2018 年， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博