今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

在注意力中重新思考Softmax:分解非线性,这个线性transformer变体实现多项SOTA

机器学习算法与自然语言处理  · 公众号  ·  · 2022-02-22 08:55
MLNLP(机器学习算法与自然语言处理)社区是国内外最大的自然语言处理社区之一,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步。来源 | 极市平台Transformer 在自然语言处理、计算机视觉和音频处理方面取得了巨大的成功。作为其核心组件之一,softmax 注意力有助于捕获长程依赖关系,但由于序列长度的二次空间和时间复杂度而禁止其扩展。研究者通常采用核(Kernel)方法通过逼近 softmax 算子来降低复杂度。然而,由于近似误差,它们的性能在不同的任务 / 语料库中有所不同,与普通的 softmax 注意力相比,其性能会下降。研究者认为 softmax 算子是主要障碍,而对 softm ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照