今天看啥  ›  专栏  ›  香侬科技

香侬读 | 你可能不需要固定词表:一种与词表无关的组合式词向量方法

香侬科技  · 公众号  ·  · 2020-09-28 11:57
论文标题:Grounded Compositional Outputs for Adaptive Language Modeling论文作者:Nikolaos Pappas (UW), Phoebe Mulcaire (UW), Noah A. Smith (UW)论文链接:https://arxiv.org/abs/2009.11523代码链接:https://github.com/Noahs-ARK/groc (Coming soon)过去的几乎所有深度模型在输入和输出的时候都使用一个固定的词向量矩阵,它的大小就是预定义好的词表的大小。但是,在测试的时候遇到OOV,或者用在其他领域的时候,模型的效果就会大打折扣。如果要覆盖更多的词,无疑就是增大词表,这样的话,词向量矩阵也会随之增大。如何尽可能覆盖更多的词,同时也不会显著增加参数量,甚至保持参数量不变,是处理此类问题的一个关键所在。本文提出了一种与词表无关的词向量方法,每个词的词向量都是由它内部的字符、W ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照