mysql数据清洗
数据库清洗
1.流程
- 确认数据是否拷贝
- 原始数据是否具有唯一ID
- 清洗数据中的错误值(填写错误、逻辑错误)
- 清洗数据中异常值
- 清洗数据中的缺失值
2.字段选择
通常在采集到的原始数据中,将姓名或其他字符串的字段不选入最后分析的数据库中
在实际项目中,如果客户有历史记录,应提取越多字段的数据越好
另外,还需处理数据整合的问题,如数据单位不一致、数据重复等
字段数据重复:单个字段数据重复、多个字段数据重复
3.主要工作
噪声消除
噪声包括错误值(以类别字段为主)和异常值(针对连续变量)
噪声会使后期分析结果产生很大偏差,必须对噪声进行有效识别和处理
缺失值处理
人工处理
软件自动处理
4.错误值及异常值处理方法
软件及人工结合的方法
错误值:
无论分类变量还是连续变量,均先检查数据的分布情况,找到错误值。对于分类变量,检查与其它值是否有相似之处,若无,直接处理为空值/未知
异常值:
判断标准:1)最小最大分布法,按从小到大排序,选取最小的5%和最大的95%数据作为异常值;
2)标准分法:平均值+-3个标准差
3)四位数法:IQR=Q3-Q1
处理方法
取平均值
空值处理
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 小chen妙妙屋!
评论





