注册
登录
专栏名称:
AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
我也要提交微信公众号
今天看啥
公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词RSS订阅方法
知网期刊RSS订阅方法
即刻RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
本文颠覆性地提出大块推理时训练(LaCT)框 ...
·
22 小时前
爱可可-爱生活
·
【[1.1k星]BirdNET-Analyz ...
·
昨天
爱可可-爱生活
·
【[553星]sqlocal:在浏览器中轻松 ...
·
昨天
AI科技大本营
·
图灵奖得主杨立昆:中国人并不需要我们,他们自 ...
·
昨天
AI科技大本营
·
图灵奖得主杨立昆:中国人并不需要我们,他们自 ...
·
昨天
爱可可-爱生活
·
今日推介(第1789期):探寻Adam的秘密 ...
·
昨天
今天看啥
›
专栏
›
AI科技评论
Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对,或成为NMT评估标准
AI科技评论
·
公众号
·
AI
· 2020-02-07 14:34
文章预览
作者 | 京枚 编辑 | 贾伟 当前自然语言处理中的大多数方法都是数据驱动的,大多数多语言模型(特别是神经机器翻译系统)都需要并行语料库进行训练。大多数的并行文本都只是适用于几个主要语言(例如英语、汉语),且限制于特定的领域。 为了解决这一问题,在去年七月份,Facebook曾发布了第一个系统处理Wikipedia上所有语言(包括资源贫乏的语言和方言)的数据集WikiMatrix,大约包含了亿级的并行语料,覆盖1620种语言对。 而最近,Facebook基于新的方法和数据源,开发并开源了一个目前为止最大的并行语料数据集 CCMatrix。这个数据集包含 45 亿并行语料(是WikiMatrix的近50倍),覆盖576种语言对。 论文:https://arxiv.org/abs/1911.04944 数据集开源地址:https://github.com/fa ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
本文颠覆性地提出大块推理时训练(LaCT)框架,通过采用极大词元-20250603052146
22 小时前
爱可可-爱生活
·
【[1.1k星]BirdNET-Analyzer:为科学研究提供-20250602143929
昨天
爱可可-爱生活
·
【[553星]sqlocal:在浏览器中轻松运行SQLite3,-20250602143955
昨天
AI科技大本营
·
图灵奖得主杨立昆:中国人并不需要我们,他们自己就能想出非常好的点子
昨天
AI科技大本营
·
图灵奖得主杨立昆:中国人并不需要我们,他们自己就能想出非常好的点子
昨天
爱可可-爱生活
·
今日推介(第1789期):探寻Adam的秘密配方、扩散引导是一种-20250602075442
昨天
南中地教研
·
【必修一精品课】6.3 地质灾害——汶川之殇(李昀唏)
7 月前
话沈阳
·
果然,沈阳地铁打破纪录了!
5 月前
新闻坊
·
"闯祸了!急死人!"上海一小区突发火情! 消防扑灭,居民们仍后怕…
3 月前
LRTV辽宁之声
·
国家卫健委:将建立0~3岁危重症儿童24小时救治绿色通道
1 月前
城市捷报
·
厦门新增多所普高,今秋投用!
2 周前