注册登录

专栏名称: AI科技评论

「AI科技评论」是国内顶尖人工智能媒体和产业服务平台，专注全球 AI 业界、学术和开发三大方向的深度报道。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

目录

相关文章推荐

爱可可-爱生活 · 本文颠覆性地提出大块推理时训练（LaCT）框 ... · 22 小时前

爱可可-爱生活 · 【[1.1k星]BirdNET-Analyz ... · 昨天

爱可可-爱生活 · 【[553星]sqlocal：在浏览器中轻松 ... · 昨天

AI科技大本营 · 图灵奖得主杨立昆：中国人并不需要我们，他们自 ... · 昨天

AI科技大本营 · 图灵奖得主杨立昆：中国人并不需要我们，他们自 ... · 昨天

爱可可-爱生活 · 今日推介(第1789期)：探寻Adam的秘密 ... · 昨天

今天看啥 › 专栏 › AI科技评论

Facebook开源最大规模并行语料，45亿语料，覆盖576种语言对，或成为NMT评估标准

AI科技评论 · 公众号 · AI · 2020-02-07 14:34

文章预览

作者 | 京枚编辑 | 贾伟当前自然语言处理中的大多数方法都是数据驱动的，大多数多语言模型（特别是神经机器翻译系统）都需要并行语料库进行训练。大多数的并行文本都只是适用于几个主要语言（例如英语、汉语），且限制于特定的领域。为了解决这一问题，在去年七月份，Facebook曾发布了第一个系统处理Wikipedia上所有语言（包括资源贫乏的语言和方言）的数据集WikiMatrix，大约包含了亿级的并行语料，覆盖1620种语言对。而最近，Facebook基于新的方法和数据源，开发并开源了一个目前为止最大的并行语料数据集 CCMatrix。这个数据集包含 45 亿并行语料（是WikiMatrix的近50倍），覆盖576种语言对。论文：https://arxiv.org/abs/1911.04944 数据集开源地址：https://github.com/fa ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 本文颠覆性地提出大块推理时训练（LaCT）框架，通过采用极大词元-20250603052146

22 小时前

爱可可-爱生活 · 【[1.1k星]BirdNET-Analyzer：为科学研究提供-20250602143929

昨天

爱可可-爱生活 · 【[553星]sqlocal：在浏览器中轻松运行SQLite3，-20250602143955

昨天

AI科技大本营 · 图灵奖得主杨立昆：中国人并不需要我们，他们自己就能想出非常好的点子

昨天

AI科技大本营 · 图灵奖得主杨立昆：中国人并不需要我们，他们自己就能想出非常好的点子

昨天

爱可可-爱生活 · 今日推介(第1789期)：探寻Adam的秘密配方、扩散引导是一种-20250602075442

昨天

南中地教研 · 【必修一精品课】6.3 地质灾害——汶川之殇（李昀唏）

7 月前

话沈阳 · 果然，沈阳地铁打破纪录了！

5 月前

新闻坊 · "闯祸了!急死人!"上海一小区突发火情! 消防扑灭,居民们仍后怕…

3 月前

LRTV辽宁之声 · 国家卫健委：将建立0~3岁危重症儿童24小时救治绿色通道

1 月前

城市捷报 · 厦门新增多所普高，今秋投用！

2 周前

关于移动版 · RSS之家 · 卧龙AI搜索 · 更多产品 ·

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号