看啥推荐读物
专栏名称: Python程序员
最专业的Python社区,有每日推送,免费电子书,真人辅导,资源下载,各类工具。我已委托“维权骑士”(rightknights.com)为我的文章进行维权行动
今天看啥  ›  专栏  ›  Python程序员

数据预处理的 10 个小技能,附 Pandas 实现

Python程序员  · 公众号  · Python  · 2020-11-29 08:30
数据预处理常用的处理步骤,包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等,下面使用 pandas 解决这些最常见的预处理任务。找出异常值常用两种方法:标准差法:异常值平均值上下1.96个标准差区间以外的值分位数法:小于 1/4分位数减去 1/4和3/4分位数差的1.5倍,大于3/4减去 1/4和3/4分位数差的1.5倍,都为异常值技能1 :标准差法import pandas as pddf = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})# 异常值平均值上下1.96个标准差区间以外的值meangrade = df['a'].mean()stdgrade = df['a'].std()toprange = meangrade + stdgrade * 1.96botrange = meangrade - stdgrade * 1.96# 过滤区间外的值copydf = dfcopydf = copydf.drop(copydf[copydf['a']        > toprange ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照