数据科学俱乐部中国数据科学家社区♚作者:xiaoyu,一个半路转行的数据挖掘工程师,Python数据科学。数据初探首先导入要使用的科学计算包numpy,pandas,可视化matplotlib,seaborn,以及机器学习包sklearn。import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib as mplimport matplotlib.pyplot as pltfrom IPython.display import displayplt.style.use("fivethirtyeight")sns.set_style({'font.sans-serif':['simhei','Arial']})%matplotlib inline# 检查Python版本from sys import version_infoif version_info.major != 3: raise Exception('请使用Python 3 来完成此项目')然后导入数据,并进行初步的观察,这些观察包括了解数据特征的缺失值,异常值,以及大概的描述性统计。# 导入链家二手房数据lianjia_df = pd.read_csv('lianjia.csv')di
………………………………