数据预处理常用的处理步骤,包括找出异常值、处理缺失值、过滤不合适值、去掉重复行、分箱、分组、排名、category转数值等,下面使用 pandas 解决这些最常见的预处理任务。找出异常值常用两种方法:标准差法:异常值平均值上下1.96个标准差区间以外的值分位数法:小于 1/4分位数减去 1/4和3/4分位数差的1.5倍,大于3/4减去 1/4和3/4分位数差的1.5倍,都为异常值技能1 :标准差法import pandas as pddf = pd.DataFrame({'a':[1,3,np.nan],'b':[4,np.nan,np.nan]})# 异常值平均值上下1.96个标准差区间以外的值meangrade = df['a'].mean()stdgrade = df['a'].std()toprange = meangrade + stdgrade * 1.96botrange = meangrade - stdgrade * 1.96# 过滤区间外的值copydf = dfcopydf = copydf.drop(copydf[copydf['a'] > toprange
………………………………