看啥推荐读物
专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

想要训练中文NLP模型却苦于没数据?是时候支持开源中文了

机器之心  · 公众号  · AI  · 2019-02-15 11:35
机器之心报道机器之心编辑部你需要中文语料吗?本文正是介绍了这样一个项目,它旨在收集真正方便的开放中文数据集。目前该项目已经提供了三个大型中文数据集,且到今年 5 月份,一期目标希望构建 10 个百万级中文语料和 3 个千万级中文语料。项目地址:https://github.com/brightmart/nlp_chinese_corpus在学习 NLP 的这条不归路上,我们总会发现大多数先进算法与优质示例代码都是用英文数据集。而当我们满怀希望地把模型迁移到中文世界时,缺少公开的优质数据集简直就是天堑。比如说最简单的中文语料,只需要一段段自然的中文文本就行了,我们可以用它训练语言模型或词嵌入等模型,然而实际上我们会发现公开的大型语料真的很少。少还只是一点,现有的中文语料很 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照