文章预览
在数据分析和 建模中,经常会遇到变量值缺 失的情况,这是非常常见的。 为了保证数据指标的完整 性以及 可利用性,通常我们会采取特殊的方式对其进行处理。 1、缺失查看 首先,需要查看缺失值的缺失数量以及比例(#数据使用的kaggle平台上预测房价的数据) import pandas as pd # 统计缺失值数量 missing=data.isnull().sum().reset_index().rename(columns={0:'missNum'}) # 计算缺失比例 missing['missRate']=missing['missNum']/data.shape[0] # 按照缺失率排序显示 miss_analy=missing[missing.missRate>0].sort_values(by='missRate',ascending=False) # miss_analy 存储的是每个变量缺失情况的数据框 柱形图可视化 import matplotlib.pyplot as plt import pylab as pl fig = plt.figure(figsize=(18,6)) plt.bar(np.arange(miss_analy.shape[0]), list(miss_analy.missRate.values), align = 'center',color=['red','green','yellow','steelblue']) plt.title('Histogram of missing value of variable
………………………………