注册登录

看啥推荐读物

专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

知乎回答RSS订阅方法

知乎专栏 RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

黄建同学 · 转发微博-20240422163142· 2 天前

宝玉xp · //@巍峰://@我不是谦哥儿:这家人遇到了 ...· 3 天前

宝玉xp · 咬定青山不放松，立根原在破岩中！ ...· 3 天前

机器之心 · AI ...· 4 天前

宝玉xp · 英特尔在俄勒冈工厂新增 ASML ...· 5 天前

今天看啥 › 专栏 › 机器之心

想要训练中文NLP模型却苦于没数据？是时候支持开源中文了

机器之心 · 公众号 · AI · 2019-02-15 11:35

机器之心报道机器之心编辑部你需要中文语料吗？本文正是介绍了这样一个项目，它旨在收集真正方便的开放中文数据集。目前该项目已经提供了三个大型中文数据集，且到今年 5 月份，一期目标希望构建 10 个百万级中文语料和 3 个千万级中文语料。项目地址：https://github.com/brightmart/nlp_chinese_corpus在学习 NLP 的这条不归路上，我们总会发现大多数先进算法与优质示例代码都是用英文数据集。而当我们满怀希望地把模型迁移到中文世界时，缺少公开的优质数据集简直就是天堑。比如说最简单的中文语料，只需要一段段自然的中文文本就行了，我们可以用它训练语言模型或词嵌入等模型，然而实际上我们会发现公开的大型语料真的很少。少还只是一点，现有的中文语料很 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博

推荐文章

黄建同学 · 转发微博-20240422163142

2 天前

宝玉xp · //@巍峰://@我不是谦哥儿:这家人遇到了贵人，在生死攸关的时-20240422011539

3 天前

宝玉xp · 咬定青山不放松，立根原在破岩中！ -20240422020430

3 天前

机器之心 · AI Pioneers｜星海图高继扬：人形机器人不是具身智能的唯一答案

4 天前

宝玉xp · 英特尔在俄勒冈工厂新增 ASML 首台高数值孔径极紫外光刻设备英-20240420114651

5 天前

严道医声网 · 瓣法 | 杨明：刚柔并兼安全领航-SAFARI²预塑形导丝匹配自膨式瓣膜应用

1 年前

广州着数游 · 好礼送不停｜珠海汤臣营养探索馆，参观“透明工厂”19元拿好礼12选1

2 年前

读首诗再睡觉 · 红遍世界的果冻鞋，超软弹、不怕水，还自带香气！

3 年前

看雪学苑 · 《看雪论坛精华19》陪你过大年

5 年前

国家人文历史 · 山东省为什么简称鲁，而不是齐？

6 年前

关于移动版 · Py中国 · RSS之家 · codingpro · Code · link之家 · 卧龙AI搜索 · 藏经阁 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号