专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

字符级NLP优劣分析:在某些场景中比词向量更好用

机器之心  · 公众号  · AI  · 2019-03-24 12:05
选自LightTAG机器之心编译参与:熊猫在解决 NLP 问题时,你选择的基本处理单位是词还是字符?LightTag 近日的一篇博文介绍了字符级 NLP 模型的优势和短板,并介绍了一些更适合字符级模型的应用场景。需要注意的是,本文主要围绕英语等单个字符无具体意义的语言编写,对于汉语这种词与字符之间存在很多重叠的语言,或许还需要一些新的思索。NLP 系统就像人生一样,充满了选择与权衡。其中一个选择是指定我们的模型所看到的最小单位。通常而言,我们处理语言的方式是处理「词(word)」。本文则将探索另一个不太直观的选择——字符(character),并将介绍字符级处理方式的优缺点。字符级模型放弃了词所具有的语义信息,也放弃了即插即用的预训练词向量生态系 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照