专栏名称: 机器学习初学者
号主黄博Github全球排名前90,3.6万Star!致力于为初学者提供学习路线和基础资料,公众号可以当作随身小抄,文章很全,建议收藏!点击菜单可以进入学习!
目录
相关文章推荐
今天看啥  ›  专栏  ›  机器学习初学者

【机器学习】机器学习基础:缺失值的处理技巧(附Python代码)

机器学习初学者  · 公众号  ·  · 2024-12-31 14:13
    

文章预览

在数据分析和 建模中,经常会遇到变量值缺 失的情况,这是非常常见的。 为了保证数据指标的完整 性以及 可利用性,通常我们会采取特殊的方式对其进行处理。 1、缺失查看 首先,需要查看缺失值的缺失数量以及比例(#数据使用的kaggle平台上预测房价的数据) import pandas as pd # 统计缺失值数量 missing=data.isnull().sum().reset_index().rename(columns={0:'missNum'}) # 计算缺失比例 missing['missRate']=missing['missNum']/data.shape[0] # 按照缺失率排序显示 miss_analy=missing[missing.missRate>0].sort_values(by='missRate',ascending=False) # miss_analy 存储的是每个变量缺失情况的数据框 柱形图可视化 import matplotlib.pyplot as plt import pylab as pl fig = plt.figure(figsize=(18,6)) plt.bar(np.arange(miss_analy.shape[0]), list(miss_analy.missRate.values), align = 'center',color=['red','green','yellow','steelblue']) plt.title('Histogram of missing value of variable ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览