一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

【Subword】 NLP Subword三大算法原理:BPE、WordPiece、ULM

机器学习算法与自然语言处理  · 公众号  ·  · 2020-02-17 09:00
公众号关注 “ML_NLP”设为 “星标”,重磅干货,第一时间送达!正文作者:Luke正文来源:https://zhuanlan.zhihu.com/p/86965595编辑:夕小遥的卖萌屋前言Subword算法如今已经成为了一个重要的NLP模型性能提升方法。自从2018年BERT横空出世横扫NLP界各大排行榜之后,各路预训练语言模型如同雨后春笋般涌现,其中Subword算法在其中已经成为标配。且与传统空格分隔tokenization技术的对比有很大的优势~~传统词表示方法无法很好的处理未知或罕见的词汇(OOV问题)传统词tokenization方法不利于模型学习词缀之前的关系E.g. 模型学到的“old”, “older”, and “oldest”之间的关系无法泛化到“smart”, “smarter”, and “smartest”。Character embedding作为OOV的解决方法粒度太细Subword粒度在词与字符之间 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照