看啥推荐读物
专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
今天看啥  ›  专栏  ›  AI科技评论

学界 | 北大开源中文分词工具包 pkuseg

AI科技评论  · 公众号  · AI  · 2019-01-10 19:32
AI 科技评论消息,日前,北京大学语言计算与机器学习研究组研制推出一套全新中文分词工具包 pkuseg,这一工具包有如下三个特点:高分词准确率。相比于其他的分词工具包,当使用相同的训练数据和测试数据,pkuseg 可以取得更高的分词准确率。多领域分词。不同于以往的通用中文分词工具,此工具包同时致力于为不同领域的数据提供个性化的预训练模型。根据待分词文本的领域特点,用户可以自由地选择不同的模型。而其他现有分词工具包,一般仅提供通用领域模型。支持用户自训练模型。支持用户使用全新的标注数据进行训练。各项性能对比如下:与 jieba、THULAC 等国内代表分词工具包进行性能比较:考虑到 jieba 分词和 THULAC 工具包等并没有提供细领域的预训练 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照