在注意力中重新思考Softmax：分解非线性，这个线性transformer变体实现多项SOTA

机器学习算法与自然语言处理 · 公众号 · · 2022-02-22 08:55

MLNLP(机器学习算法与自然语言处理)社区是国内外最大的自然语言处理社区之一，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步。来源 | 极市平台Transformer 在自然语言处理、计算机视觉和音频处理方面取得了巨大的成功。作为其核心组件之一，softmax 注意力有助于捕获长程依赖关系，但由于序列长度的二次空间和时间复杂度而禁止其扩展。研究者通常采用核（Kernel）方法通过逼近 softmax 算子来降低复杂度。然而，由于近似误差，它们的性能在不同的任务 / 语料库中有所不同，与普通的 softmax 注意力相比，其性能会下降。研究者认为 softmax 算子是主要障碍，而对 softm ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博