看啥推荐读物
专栏名称: 数据分析与开发
伯乐在线旗下账号,分享数据库相关技术文章、教程和工具,另外还包括数据库相关的工作。偶尔也谈谈程序员人生 :)
目录
相关文章推荐
今天看啥  ›  专栏  ›  数据分析与开发

使用 Python 分析《我不是药神》豆瓣电影短评

数据分析与开发  · 公众号  · 数据库  · 2018-07-15 20:30
(点击上方蓝字,快速关注我们)来源:一别丶经年my.oschina.net/zhanglikun/blog/1845888小爬怡情,中爬伤身,强爬灰灰。爬虫有风险,使用请谨慎,可能是这两天爬豆瓣电影爬多了,今天早上登录的时候提示号被封了(我用自己帐号爬的,是找死呢还是在找死呢 ...),好在后面发完短信后又解封了,^_^。之前的文章中,已把电影短评数据装进了Mongo中,今天把数据取出来简单分析一下,当下最火的做法是进行词频统计并生成词云,今天说的就是这个。读取 Mongo 中的短评数据,进行中文分词不知道什么原因,我实际爬下来的短评数据只有1000条(不多不少,刚刚好),我总觉得有什么不对,但我重复爬了几次后,确实只有这么多。可能是我爬虫写的有什么不对吧,文末附源码 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照