看啥推荐读物
专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

NLP中一些简单的数据增强技术

AINLP  · 公众号  ·  · 2019-09-29 13:30
数据增强技术已经是图像领域的标配,通过对图像的翻转、旋转、镜像、高斯白噪声等技巧实现数据增强。然而,在NLP领域,情况有所不同:改变某个词汇可能会改变整个句子的含义,那么在NLP领域,如何使用数据增强技术呢?ICLR 2019 workshop 论文《EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks》介绍了几种NLP数据增强技术,并推出了[EDA github代码](jasonwei20/eda_nlp)。EDA github repo提出了四种简单的操作来进行数据增强,以防止过拟合,并提高模型的泛化能力。下面进行简单的介绍:1. 同义词替换(SR: Synonyms Replace):不考虑stopwords,在句子中随机抽取n个词,然后从同义词词典中随机抽取同义词,并进行替换。2. 随机插入(RI: Randomly Insert):不考虑stopword ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照