数据挖掘知识整理——【PART II】数据预处理

在挖掘前,使用一些数据处理技术,可以显著的提高挖掘模式的质量。

数据质量

数据质量涉及多个因素:

  • 准确性
  • 完整性
  • 一致性
  • 时效性
  • 可信性
  • 可解释性

数据预处理

包括这几个主要任务:

  • 数据清理
  • 数据集成
  • 数据归约
  • 数据变换

注意:上面的步骤不是互斥的,如冗余数据的删除即是一种数据清理形式,也是一种数据归约。

数据清理

通过填写缺失值,光滑噪声数据、识别或删除离群点,并解决不一致性来“清理”数据。

缺失值

缺失值的处理:

  • 忽略元组
  • 人工填写缺失值
  • 使用一个全局常量填充缺失值
  • 使用属性的中心度量(如均值、中位数)填充缺失值
  • 使用与给定元组属
  • 于同一类的所有样本的属性均值或者中位数
  • 使用回归、贝叶斯、决策树预测的值填充缺失值

最后一种是最流行的做法

噪声

噪声:是被测量的变量的随机误差或方差。

去除噪声光滑数据的技术:

  • 分箱
    • 箱均值光滑
    • 箱中位数光滑
    • 箱边界光滑
  • 回归:用函数拟合数据来光滑数据
  • 离群点分析:可以用聚类来检测离群点

数据集成

集成多个数据库、数据立方体、数据文件的数据。

引发的问题

  • 实体识别问题
  • 冗余和相关分析
  • 元组重复
  • 数据值冲突的检测与处理

数据归约

得到数据集的简化表示,比原来的数据集更小,但是得到的分析结果几乎相同。

分为:

  • 维归约:去除不相关的属性。用到的技术有:
    • 小波变换
    • 主成分分析
    • 属性子集选择
  • 数量归约:用较小的数据替代原来的数据
  • 数据压缩:使用变换,得到原数据的压缩

数据变换

将数据变换和统一,是挖掘更加有效。

使用的方法有:

  • 规范化:
    • 最大最小规范化
    • z-score
    • 小数定标
  • 离散化:
    • 分箱
    • 直方图分析
    • 聚类、决策树分析
  • 概念分层

最后

「数据仓库」和「数据立方体」部分老师上课没有讲过,自己目前暂时还不想系统的学习,所以先搁置到一边也无法梳理这一块的内容。