CMU和谷歌联手放出XL号Transformer！提速1800倍 | 代码+预训练模型+超参数

中国人工智能学会 · 公众号 · AI · 2019-01-16 12:22

乾明发自凹非寺量子位出品 | 公众号 QbitAIXL号的Transformer来了！近日，CMU和谷歌联手发布一篇论文，介绍了一种新的语言建模方法Transformer-XL。这里的XL，指的是extra long，意思是超长，表示Transformer-XL在语言建模中长距离依赖问题上有非常好的表现。同时，也暗示着它就是为长距离依赖问题而生。长距离依赖问题，是当前文本处理模型面临的难题，也是RNN失败的地方。相比之下，Transformer-XL学习的依赖要比RNN长80%。比Vanilla Transformers快450%。在短序列和长序列上，都有很好的性能表现。更可怕的还在速度上，在评估过程中，比Vanilla Transformers快了1800倍以上。效果？更是不消多数。在enwiki8、text8、WikiText-2、WikiText-103和One Billion Words等数据集实验中，都处于领先水平。尤其是字符级别的enwiki8中，Transformer-XL是第一个突破1.0的。Transformer-XL是怎么做的？关键 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博