专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
今天看啥  ›  专栏  ›  AI科技评论

Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对,或成为NMT评估标准

AI科技评论  · 公众号  · AI  · 2020-02-07 14:34
    

文章预览

作者 | 京枚 编辑 | 贾伟   当前自然语言处理中的大多数方法都是数据驱动的,大多数多语言模型(特别是神经机器翻译系统)都需要并行语料库进行训练。大多数的并行文本都只是适用于几个主要语言(例如英语、汉语),且限制于特定的领域。   为了解决这一问题,在去年七月份,Facebook曾发布了第一个系统处理Wikipedia上所有语言(包括资源贫乏的语言和方言)的数据集WikiMatrix,大约包含了亿级的并行语料,覆盖1620种语言对。 而最近,Facebook基于新的方法和数据源,开发并开源了一个目前为止最大的并行语料数据集 CCMatrix。这个数据集包含 45 亿并行语料(是WikiMatrix的近50倍),覆盖576种语言对。 论文:https://arxiv.org/abs/1911.04944 数据集开源地址:https://github.com/fa ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览