专栏名称: 大数据挖掘DT数据分析

实战数据资源提供。数据实力派社区，手把手带你玩各种数据分析，涵盖数据分析工具使用，数据挖掘算法原理与案例，机器学习，R语言，Python编程，爬虫。如需发布广告请联系： hai299014

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

用python做NLP：中文文本预处理

大数据挖掘DT数据分析 · 公众号 · 大数据 · 2017-05-24 19:42

数据挖掘入门与实战公众号： datadw 一得到原始文本内容 def FileRead( self ,filePath): f = open(filePath) raw=f.read() return raw 二中文分词 def NlpirTokener( self ,raw): result= '' tokens = nlpir.Seg(raw) for w in tokens: # result+= w[0]+"/"+w[1] #加词性标注 result+= w[ 0 ] + '/' #加词性标注 return result def JiebaTokener( self ,raw): result= '' words = pseg.cut(raw) #进行分词 result="" #记录最终结果的变量 for w in words: # result+= str(w.word)+"/"+str(w.flag) #加词性标注

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

数据派THU · 【NTU博士论文】基于协作式多智能体强化学习的决策制定

2 天前

数据派THU · ICLR 2025｜Top3高分论文HyCoCLIP：双曲视觉语言模型的组合蕴涵学习

4 天前

ioncology · EHA大咖访谈丨张弦教授：CD7 CAR-T治疗复发/难治急性T淋巴细胞白血病/T淋巴母细胞淋巴瘤后的免疫重建

10 月前

译中人 · 【线上】医学英语翻译 Freelancer 招募, 10-15k

1 月前

江苏新闻 · 入住宾馆临时加价200元？南京秦淮区市场监管局处理结果来了

1 周前