数据挖掘入门与实战 公众号: datadw 一 得到原始文本内容 def FileRead( self ,filePath): f = open(filePath) raw=f.read() return raw 二 中文分词 def NlpirTokener( self ,raw): result= '' tokens = nlpir.Seg(raw) for w in tokens: # result+= w[0]+"/"+w[1] #加词性标注 result+= w[ 0 ] + '/' #加词性标注 return result def JiebaTokener( self ,raw): result= '' words = pseg.cut(raw) #进行分词 result="" #记录最终结果的变量 for w in words: # result+= str(w.word)+"/"+str(w.flag) #加词性标注