数据挖掘知识整理——【PART II】数据

数据是新时代的石油。

本篇完成对每天都在谈论的、接触的「数据」进行梳理。

数据

数据集由多个数据对象组成。

一个数据对象代表一个实体。数据对象用属性进行描述。数据对象又叫样本实例数据点或者对象

数据的属性分类

属性(attribute)为一个数据字段,表示数据对象的一个特征。在文献中,属性维(dimension)特征(feature)变量(variable)可以互换的使用。数据仓库中一般使用,机器学习中倾向于特征,统计学中倾向于变量,数据挖掘中倾向于属性。

用来描述一个给定对象的一组属性称作属性向量(或者特征向量)。

分类

1)标称属性。与名字相关。比如说你喜欢的英雄,有闪电侠、蝙蝠侠、神奇女侠等,也可以用数字代表这些属性的值,比如用0>>闪电侠1>>蝙蝠侠

  • 对这种属性的众数有意义,均值、中位数没有意义

2)二元属性。是一种标称属性,只有两个类别或状态:0 和 1。

  • 一个二元属性是对称的:两种状态具有同样价值。比如性别男女
  • 一个二元属性不是对称的:两种状态不具有同样价值。比如 HIV 的阴性阳性,用 1 来标注比较稀有的阳性,用 0 来标注阳性
  • 对这种属性的众数有意义,均值、中位数没有意义

3)序数属性。其可能的值具有有意义的序或者秩评定,但是相继之间的差值是未知的。

  • 比如,学生的成绩有 A B C D E F 之分
  • 序数属性可以将数值量的值域划分为有限个类别,将数值属性离散化
  • 对这种属性的总数和中位数有意义,均值没有意义

4)数值属性。是定量的,即可以度量的量,用整数或实数值表示。

  • 区间标度属性:用相等的单位尺度度量。比如温度
  • 比率标度属性:是具有固有零点的数值属性。比如开式温度
  • 中位数、众数、均值都有意义

5)离散属性和连续属性。

数据的基本统计描述

参考之前的博客:统计学知识–均值、中位数、众数及其他

数据可视化

  • 分位数图
  • 分位数图-分位数图
  • 直方图
  • 散点图
  • 柱状图
  • 三维空间可视化
  • 词云

度量数据的相似性和相异性

对不同类型的属性有不同的度量方法:

  • 标称属性的邻近性度量。计算相异性矩阵
  • 二元属性的邻近性度量。计算方法分为对称的和非对称的。
  • 数值属性的相异性度量:闵可夫斯基距离(又可分为欧几里得、曼哈顿距离)
  • 序数属性的邻近性度量。需要将数值属性的值根据公式离散化,得到相异性矩阵
  • 混合类型属性的相异性
  • 余弦相似性。通常计算两个文档的词频向量

总结

最近一直在办夏令营的事情,好多事情都被打断了,还是怪自己没有提前准备好材料,耽误了现在的时间。希望一切顺利。