技惊四座的BERT全靠数据集？大模型霸榜或许是学界的灾难

机器之心 · 公众号 · AI · 2019-07-22 12:08

机器之心整理机器之心编辑部作为 2018 年自然语言处理领域的新秀，BERT 是过去几年自然语言处理（NLP）领域的集大成者，一经出场就技惊四座，碾压所有算法，刷新了 11 项 NLP 测试的最高纪录，甚至有「超越人类」的表现，它被认为是未来 NLP 研究和工业应用最为主流的语言模型之一。然而最近台湾国立成功大学的一篇论文却给人们泼了冷水。这一研究认为，BERT 至少在 ARCT 任务上利用了不正常的统计线索。正是这些统计线索，BERT 才能获得极好的效果，如果在不改变原数据的情况下去除不正常的线索，BERT 甚至不如随机猜测。此言一出，立即引发了机器学习社区的强烈反响，在研究社区中有人评价道：「我非常喜欢这篇论文，它用简单有效的方式表明这些模型没有被 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博