看啥推荐读物
专栏名称: 马哥Linux运维
马哥linux致力于linux运维培训,连续多年排名第一,订阅者可免费获得学习机会和相关Linux独家实战资料!
目录
相关文章推荐
运维  ·  Windows 10 ...·  昨天  
运维  ·  德国也要 ...·  3 天前  
今天看啥  ›  专栏  ›  马哥Linux运维

抓取链家官网北京房产信息并用python进行数据挖掘

马哥Linux运维  · 公众号  · 运维  · 2018-03-18 18:05
从2014年对楼市的普遍唱衰,到2015年的价格回暖,到底发生了怎样的改变?本文就尝试通过大数据来和丰富的图表,为大家展现数据背后的数据。     数据采集采用笔者用C#开发的爬虫工具。     数据清洗ETL采用了笔者开发的工具软件。     数据分析采用ipython notebook和pandas     可视化使用了matplotlib和seaborn.     热力图使用了百度地图API, 按经纬度0.01度为一个子区域,计算其中的平均值作为当前区域的房价/二手房数量。这些数据是笔者在2014年10月年和2015年10月份两次,在链家官网上抓取的在售二手房数据,2014年约为64000条,2015年总计约7W条。数据源可能会有偏差,因此结论仅供参考。首先我们导入所需的类库:# -*- coding:utf-8 -*-import mongo;import pandas as pd;import ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照