数据挖掘知识整理——【PART II】数据挖掘概览

PART II 部分是数据挖掘相关知识。

本篇完成对数据挖掘总体的一个概览,在脑海中形成一个清楚的框架体系。

数据挖掘概念

数据挖掘有以下这些不同的定义:

  1. “从数据中提取出隐含的过去未知的有价值的潜在信息”
  2. “一门从大量数据或者数据库中提取有用信息的科学。”

它与 KDD 的关系是:KDD 是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程;而数据挖掘是 KDD 通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。 事实上,在现今的文献中,这两个术语经常不加区分的使用。

以上来自维基百科。

KDD 或数据挖掘的步骤

1)数据清洗。消除噪声和删除不一致数据。

2)数据集成。多个数据源集成在一起。

3)数据选择。从数据库中提取出与分析任务相关的数据。

4)数据变换。通过汇总或聚集操作,将数据变换和统一为适合挖掘的形式。

5)数据挖掘。使用智能的算法提取数据模式。

6)模式评估。根据某种兴趣度度量,识别代表知识的真正有趣的模式。

7)知识表示。使用可视化和知识表示技术,向用户提供挖掘的知识。

挖掘的数据类型

  • 数据库数据
  • 数据仓库数据
  • 事务数据
  • 文本数据
  • 时间序列数据
  • 空间数据

可挖掘的模式与评估

可以挖掘的数据模式:

  • 频繁模式
  • 分类和回归
  • 聚类分析
  • 离群点分析

有趣的模式都是知识。所有的模式都是有趣的吗?需要度量评估,比如:

  • 支持度
  • 准确率
  • 敏感度

使用的技术

数据挖掘包含了诸多领域的技术:

  • 统计学
  • 机器学习
  • 模式识别
  • 高性能计算
  • 数据库
  • 算法
  • 可视化
  • 应用

数据挖掘的主要问题

  • 挖掘方法。方法的鲁棒性、可解释性;针对大数据集有效性和可伸缩性;针对数据类型的多样性。
  • 用户交互
  • 数据挖掘的社会问题。隐私保护