一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
分享
今天看啥  ›  专栏  ›  公众号  ›  机器学习算法与自然语言处理

斯坦福发布重磅NLP工具包StanfordNLP,支持中文等53种语言

机器学习算法与自然语言处理  · 公众号  ·  · 2019-02-01 00:00





  新智元报道  

来源:stanfordnlp.github.io

编辑:肖琴

【新智元导读】斯坦福团队最新发布一个NLP任务的软件包StanfordNLP,通过Python接口为53种语言提供标记、依存句法分析等NLP任务的重要工具。


今天,斯坦福NLP团队发布一个重磅NLP工具包:StanfordNLP


StanfordNLP是一个软件包组合,包括斯坦福团队在CoNLL 2018 的通用依存解析(Universal Dependency Parsing)共享任务上使用的软件包,以及斯坦福CoreNLP软件的官方Python接口。


StanfordNLP支持包括阿拉伯语、中文、英语等53种语言(全部语言列表见文末)。





除了从CoreNLP继承的功能外,StanfordNLP还包含将一串文本转换成句子和单词列表,生成这些单词的基本形式、它们的词类和形态学特征的工具,以及超过70种语言的句法结构。


这个软件包采用高准确性的神经网络组件构建,这些组件支持用户使用自己的注释数据进行高效的训练和评估。这些模块构建在PyTorch上。


StanfordNLP具有以下特征:

  • 本地Python实现,只需最少的设置工作;

  • 用于稳健的文本分析的完整神经网络pipeline,包括tokenization、多词标记(MWT)扩展、外延化、词类(POS)和形态学特征标记,以及依存句法分析(dependency parse);

  • 支持73个treebank中53种(人类)语言的预训练神经模型;

  • 稳定、官方维护的转到CoreNLP的Python接口。


获取地址:

https://stanfordnlp.github.io/stanfordnlp/index.html


安装与测试


我们强烈建议使用pip安装StanfordNLP,这非常简单





要查看StanfordNLP的neural pipeline的运行情况,可以启动Python交互式解释器,并尝试以下命令:





最后,我们应该能看到示例中第一句的依存句法分析。更多详细指南,请参阅官方入门指南:

https://stanfordnlp.github.io/stanfordnlp/installation_download.html#getting-started


除了neural pipeline之外,StanfordNLP还提供了用于访问Java Stanford CoreNLP Server的官方Python包装器。要使用它,首先需要像下面这样设置CoreNLP包:

  • 下载你希望使用的语言的Stanford CoreNLP和模型。

  • 将模型的jar包放到分发文件夹中

  • 告诉Stanford CoreNLP所在的位置:export CORENLP_HOME=/path/to/stanford-corenlp-full-2018-10-05


设置完CoreNLP之后,就可以按照我们的演示脚本进行测试。


演示脚本:





输出应该像下面这样:





StanfordNLP支持的所有语言:




推荐阅读:

何恺明:从高考状元到CV领域年轻翘楚,靠“去雾算法”成为“CVPR最佳论文”首位华人得主

漫话:如何给女朋友解释为什么双11无法修改收货地址

2019 AI 国际顶级学术会议全在这里,请查收!


求好看!谢谢大家!

今天看啥 -
本文地址:http://www.jintiankansha.me/t/Cfclcy6k8t