分类与聚类,监督学习与无监督学习
n 在讲具体的分类和聚类算法之前,有必要讲一下什么是分类,什么是
聚类,以及都包含哪些具体算法或问题。
n Classification (分类),对于一个 classifier ,通常需要你告诉它“这个东
西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得
到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种
提供训练数据的过程通常叫做 supervised learning (监督学习).
n Clustering(聚类),简单地说就是把相似的东西分到一组,聚类的时候
,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东
西聚到一起,因此,一个聚类算法通常只需要知道如何计算相似 度就
可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习
,这在 Machine Learning 中被称作 unsupervised learning (无监督学
习).
数据分析算法
n 1、基于信息论的数据挖掘方法
决策树(ID3、C4.5)
n 2、基于集合论的数据挖掘方法
关联规则挖掘(Apriori算法、Fp-tree算法)
n 3、分类
朴素贝叶斯、SVM、神经网络、KNN、AdaBoost
n 4、聚类
K-means
n 2.1 信息论原理
信息论是C.E.Shannon为解决信息传递(通信)过程问
题而建立的理论。
1. 信道模型
n 一个传递信息的系统是由发送端(信源)和接收端(信宿)
以及连接两者的通道(信道)三者组成。
n 信源发出的符号U取值为u1,u2….ur ,信宿接收的符号V取
值为v1,v2….vq 。
信源
U
u1,u2….ur
信宿
V
v1,v2….v
q
n 在进行了通信之后,信宿收到了信源发来的信息,这种先
验不确定性才会被消除或者被减少
n 如果干扰很小,不会对传递的信息产生任何影响,信源发
出的信息能够被信宿全部收到,在这种情况下,信宿的先
验不确定性就会被完全消除
n 在一般情况下,干扰总会对信源发出的信息造成某种破坏,
使信宿收到的信息不完全,先验不确定性不能全部被消除,
只能部分地消除
n 即,通信结束之后,信宿仍可能具有一定程度的不确定性,
称为后验不确定性,表示成:条件熵 H(U/V)
n在进行实际的通信之前,收信者(信宿)不可
能确切了解信源究竟会发出什么样的具体信息,
不可能判断信源会处于什么样的状态。这种情形
称为信宿对于信源状态具有不确定性
n这种不确定性是存在于通信之前的,因而又叫
做先验不确定性,表示成
信息熵 H(U)
n后验不确定性总要小于或等于先验不确定性:
H(U/V)< = H(U)
n如果二者相等,表示信宿根本没有收到信息;如果后验不确定
性的大小等于零,表示信宿收到了全部信息
n可见,信息量的大小应该由所消除的不确定性的大小来度量。
故,用互信息来表示信息量:
互信息 I(U,V)=H(U)- H(U/V)
决策树概念
n 每个实体用多个属性来描述,每个属性限于在一个离散集
中取互斥的值
例如:设实体是某天早晨,其关于气候的属性为:
天气 取值为: 晴,多云,雨
气温 取值为: 冷 ,适中,热
湿度 取值为: 高 ,正常
风 取值为: 有风, 无风
n 每个实体在世界中属于不同的类别,为简单起见,假定仅
有两个类别,分别为P,N
NO.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
属性
天气
晴
晴
多云
雨
雨
雨
多云
晴
晴
雨
晴
多云
多云
雨
气温
湿度
热
热
热
适中
冷
冷
冷
适中
冷
适中
适中
适中
热
适中
高
高
高
高
正常
正常
正常
高
正常
正常
正常
高
正常
高
风
无风
有风
无风
无风
无风
有风
有风
无风
无风
无风
有风
有风
无风
有风
类别
实体
训练集
概念的正
N
N
P
P
P
(样本)、
N
P
例和反例、
N
P
P
P
P
P
N