今天看啥  ›  专栏  ›  CSDN

用 Python 分析《斗破苍穹》,分析其究竟是烂片无疑还是沧海遗珠?

CSDN  · 公众号  · 科技媒体  · 2018-09-26 10:57
作者 | 量化小白H责编 | 郭芮近期根据小说《斗破苍穹》改编的同名电视剧正在热映,本文对《斗破苍穹》进行文本分析,分为两部分。首先爬取豆瓣影评进行简单分析,随后对于原创小说文本中的人物进行详细分析。影评分析爬取影评使用的也是之前《用 Python 爬取 500 条豆瓣影评,看看《蚁人2》是否有看点?》一文的代码,共爬到影评数据500条。简要概述下爬取过程,首先说明一下工具:软件 Python3.6;Packages 包括 selenium、jieba、snownlp、wordcloud。豆瓣上的影评分为两种,一种是长篇大论的影评,还有一种是短评——本文爬虫的目标就是短评,包括用户名、星级评价、日期、有用数、评论正文。主页显示45576条,但其实可见的只有500条,每页是20条短评。第一遍直接用S ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照