看啥推荐读物
专栏名称: 程序员大咖
为程序员提供最优质的博文、最精彩的讨论、最实用的开发资源;提供最新最全的编程学习资料:PHP、Objective-C、Java、Swift、C/C++函数库、.NET Framework类库、J2SE API等等。并不定期奉送各种福利。
今天看啥  ›  专栏  ›  程序员大咖

如何爬取了知乎用户信息,并做了简单的分析

程序员大咖  · 公众号  · 程序员  · 2017-05-09 19:11
本文出自方志朋的博客链接:http://blog.csdn.net/forezp/article/details/68951699一、使用的技术栈:爬虫:python27 +requests+json+bs4+time分析工具: ELK套件开发工具:pycharm二、数据成果三、简单的可视化分析1、性别分布0 绿色代表的是男性 ^ . ^1 代表的是女性-1 性别不确定可见知乎的用户男性颇多。2、粉丝最多的top30粉丝最多的前三十名:依次是张佳玮、李开复、黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力。3、写文章最多的top30 四、爬虫架构爬虫架构图如下: 说明:选择一个活跃的用户(比如李开复)的url作为入口url.并将已爬取的url存在set中。抓取内容,并解析该用户的关注的用户的列表url,添加这些url到另一个se ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照