今天看啥  ›  专栏  ›  桃子说产品

浅谈逻辑错误清洗的步骤和方法

桃子说产品  · 简书  ·  · 2020-01-01 23:38

前面聊了聊 缺失值清洗的步骤和方法 格式内容清洗的步骤和方法 ,本文主要说说逻辑错误清洗的步骤和方法。

1. 去重

建议把去重放在格式内容清洗之后,因为可能会出现多个空格导致认为“张三”和“张 三”不是一个人,去重失败。

2. 去除不合理值

建议对于不合理值,要么删掉,要么按缺失值处理。

3. 修正矛盾内容

有些字段是可以互相验证的,比如:身份证号可以验证用户填写年龄是否正确。在这种时候,需要根据字段的数据来源,来判定哪个字段提供的信息更为可靠,去除或重构不可靠的字段。




原文地址:访问原文地址
快照地址: 访问文章快照