Transformer本可以深谋远虑，但就是不做

机器学习算法与自然语言处理 · 公众号 · · 2024-04-22 00:00

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 机器之心语言模型是否会规划未来 token？这篇论文给你答案。「别让 Yann LeCun 看见了。」Yann LeCun 表示太迟了，他已经看到了。今天要介绍的这篇「LeCun 非要看」的论文探讨的问题是：Transformer 是深谋远虑的语言模型吗？当它在某个位置执行推理时，它会预先考虑后面的位置吗？这项研究得出的结论是：Transformer 有能力这样做，但在实践中不会这样做。我们都知道，人类会思而后言。数十年的语言学研究表明：人类在使用语言时，内心会预测即将出现的语言输入、词或句子。不同于人类，现在的语 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照