看啥推荐读物
一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

微软+韩家炜课题组的全面调研:NER标注数据少,怎么办?

机器学习算法与自然语言处理  · 公众号  ·  · 2021-03-14 00:00
公众号关注 “ML_NLP”设为 “星标”,重磅干货,第一时间送达!转载自 | 高能AI文 | JayLou娄杰 来自【微软+韩家炜课题组】的全面调研,以宏观视角探究「少样本NER」的解决方案。少样本问题是NLPer必须直面的一个棘手问题。随着BERT等预训练语言模型的兴起,确实会在一定程度上缓解少样本问题。毕竟,原来的那种「大模型、少样本」会造成严重的过拟合。只有BERT还远远不够。紧接着,我们尝试结合领域内的大量未标注数据进行「持续预训练」,就是不要停止预训练!这确实在一些场景可以进一步提升泛化性能。但,也许还是不够,万一标注数据规模进一步减少呢?万一需要在线学习未知label呢?不同NLP任务的少样本问题、难度是不一样的。一些弱/半监督/few-shot方法 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照