看啥推荐读物
专栏名称: 玉树芝兰
思考教育、写作和互联网。 我已委托“维权骑士”(rightknights.com)为我的文章进行维权行动。
今天看啥  ›  专栏  ›  玉树芝兰

如何用4行 R 语句,快速探索你的数据集?

玉树芝兰  · 公众号  · 大数据  · 2018-07-23 07:47
说明:由于微信公众号外部链接的限制,文中的部分链接可能无法正确打开。如有需要,请点击文末的“阅读原文”按钮,访问可以正常显示外链的版本。答疑社区在这里:痛点实践中,大量数据分析时间,都会花在数据清洗与探索性数据分析(Exploratory Data Analysis, EDA)。即缺失值统计处理,和变量分布可视化。数据采集过程中,可能有缺失。你需要了解缺失数据的多少,以及它们可能对后续分析造成的影响。如果某个变量的缺失数据少,干脆把含有缺失值的行(观测)扔掉就算了,免得影响分析精确程度。但如果缺失数据太多,都扔掉就不可行了。你需要考虑如何进行填补。是用0,用 "unknown" ,还是使用均值或中位数?另外,你可能还想看看每个特征变量的分布情 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照