看啥推荐读物
专栏名称: 志军
分享Python相关技术干货,偶尔扯扯其它的
今天看啥  ›  专栏  ›  志军

北大开源中文分词工具pkuseg-python,我用张小龙的3万字演讲做了统计

志军  · 公众号  · Python  · 2019-01-14 19:27
做过搜索的同学都知道,分词的好坏直接决定了搜索的质量,在英文中分词比中文要简单,因为英文是一个个单词通过空格来划分每个词的,而中文都一个个句子,单独一个汉字没有任何意义,必须联系前后文字才能正确表达它的意思。因此,中文分词技术一直是nlp领域中的一大挑战。Python 中有个比较著名的分词库是结巴分词,从易用性来说对用户是非常友好的,但是准确度不怎么好。这几天发现另外一个库,pkuseg-python,看起来应该是北大的某个学生团队弄出来的,因为这方面没看到过多的介绍,pkuseg-python 的亮点是领域细分的中文分词工具,简单易用,跟现有开源工具相比提高了分词的准确率。于是我想起用张小龙的3万字演讲做下测试,前几天在朋友圈流传了一张 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照