数据库清洗

1.流程

  1. 确认数据是否拷贝
  2. 原始数据是否具有唯一ID
  3. 清洗数据中的错误值(填写错误、逻辑错误)
  4. 清洗数据中异常值
  5. 清洗数据中的缺失值

2.字段选择

​ 通常在采集到的原始数据中,将姓名或其他字符串的字段不选入最后分析的数据库中

​ 在实际项目中,如果客户有历史记录,应提取越多字段的数据越好

​ 另外,还需处理数据整合的问题,如数据单位不一致、数据重复等

​ 字段数据重复:单个字段数据重复、多个字段数据重复

3.主要工作

噪声消除

噪声包括错误值(以类别字段为主)和异常值(针对连续变量)

噪声会使后期分析结果产生很大偏差,必须对噪声进行有效识别和处理

缺失值处理

人工处理

软件自动处理

4.错误值及异常值处理方法

软件及人工结合的方法

错误值:

无论分类变量还是连续变量,均先检查数据的分布情况,找到错误值。对于分类变量,检查与其它值是否有相似之处,若无,直接处理为空值/未知

异常值:

判断标准:1)最小最大分布法,按从小到大排序,选取最小的5%和最大的95%数据作为异常值;

​ 2)标准分法:平均值+-3个标准差

​ 3)四位数法:IQR=Q3-Q1

处理方法

取平均值

空值处理