今天看啥  ›  专栏  ›  高能AI

不要浪费没有标注的数据!超强文本半监督方法MixText来袭!

高能AI  · 公众号  ·  · 2021-01-18 21:59
文 | JayLou娄杰把没有标注的数据利用起来!不浪费未标注数据,是算法工程师的一种“必备技能”!低资源少样本NLP问题是JayJay比较关注的一个方向,说白了就是一个问题:标注样本少怎么办?而半监督学习就是解决这一问题的一个重要手段。半监督学习在CV领域早已经“大显身手”,而在NLP领域的应用却不太多。此外,随着BERT等预训练模型的强大,本质上也缓解了少样本问题。而BERT如果能和其他机器学习方法(如:半监督学习 或 主动学习 等)结合起来,或许少样本问题的增益会更加明显。本文JayJay介绍一篇来自ACL20的paper《MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification》。论文下载地址:https://arxiv.org/pdf/2004.12239论文开源地址:https:// ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照