logo资料库

机器学习算法总结ppt.ppt

第1页 / 共69页
第2页 / 共69页
第3页 / 共69页
第4页 / 共69页
第5页 / 共69页
第6页 / 共69页
第7页 / 共69页
第8页 / 共69页
资料共69页,剩余部分请下载后查看
分类与聚类,监督学习与无监督学习 n 在讲具体的分类和聚类算法之前,有必要讲一下什么是分类,什么是 聚类,以及都包含哪些具体算法或问题。 n Classification (分类),对于一个 classifier ,通常需要你告诉它“这个东 西被分为某某类”这样一些例子,理想情况下,一个 classifier 会从它得 到的训练集中进行“学习”,从而具备对未知数据进行分类的能力,这种 提供训练数据的过程通常叫做 supervised learning (监督学习). n Clustering(聚类),简单地说就是把相似的东西分到一组,聚类的时候 ,我们并不关心某一类是什么,我们需要实现的目标只是把相似的东 西聚到一起,因此,一个聚类算法通常只需要知道如何计算相似 度就 可以开始工作了,因此 clustering 通常并不需要使用训练数据进行学习 ,这在 Machine Learning 中被称作 unsupervised learning (无监督学 习).
数据分析算法 n 1、基于信息论的数据挖掘方法 决策树(ID3、C4.5) n 2、基于集合论的数据挖掘方法 关联规则挖掘(Apriori算法、Fp-tree算法) n 3、分类 朴素贝叶斯、SVM、神经网络、KNN、AdaBoost n 4、聚类 K-means
n 2.1 信息论原理 信息论是C.E.Shannon为解决信息传递(通信)过程问 题而建立的理论。 1. 信道模型 n 一个传递信息的系统是由发送端(信源)和接收端(信宿) 以及连接两者的通道(信道)三者组成。 n 信源发出的符号U取值为u1,u2….ur ,信宿接收的符号V取 值为v1,v2….vq 。 信源 U u1,u2….ur 信宿 V v1,v2….v q
n 在进行了通信之后,信宿收到了信源发来的信息,这种先 验不确定性才会被消除或者被减少 n 如果干扰很小,不会对传递的信息产生任何影响,信源发 出的信息能够被信宿全部收到,在这种情况下,信宿的先 验不确定性就会被完全消除 n 在一般情况下,干扰总会对信源发出的信息造成某种破坏, 使信宿收到的信息不完全,先验不确定性不能全部被消除, 只能部分地消除 n 即,通信结束之后,信宿仍可能具有一定程度的不确定性, 称为后验不确定性,表示成:条件熵 H(U/V)
n在进行实际的通信之前,收信者(信宿)不可 能确切了解信源究竟会发出什么样的具体信息, 不可能判断信源会处于什么样的状态。这种情形 称为信宿对于信源状态具有不确定性 n这种不确定性是存在于通信之前的,因而又叫 做先验不确定性,表示成 信息熵 H(U)
n后验不确定性总要小于或等于先验不确定性: H(U/V)< = H(U) n如果二者相等,表示信宿根本没有收到信息;如果后验不确定 性的大小等于零,表示信宿收到了全部信息 n可见,信息量的大小应该由所消除的不确定性的大小来度量。 故,用互信息来表示信息量: 互信息 I(U,V)=H(U)- H(U/V)
决策树概念 n 每个实体用多个属性来描述,每个属性限于在一个离散集 中取互斥的值 例如:设实体是某天早晨,其关于气候的属性为: 天气 取值为: 晴,多云,雨 气温 取值为: 冷 ,适中,热 湿度 取值为: 高 ,正常 风 取值为: 有风, 无风 n 每个实体在世界中属于不同的类别,为简单起见,假定仅 有两个类别,分别为P,N
NO. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 属性 天气 晴 晴 多云 雨 雨 雨 多云 晴 晴 雨 晴 多云 多云 雨 气温 湿度 热 热 热 适中 冷 冷 冷 适中 冷 适中 适中 适中 热 适中 高 高 高 高 正常 正常 正常 高 正常 正常 正常 高 正常 高 风 无风 有风 无风 无风 无风 有风 有风 无风 无风 无风 有风 有风 无风 有风 类别 实体 训练集 概念的正 N N P P P (样本)、 N P 例和反例、 N P P P P P N
分享到:
收藏