logo资料库

k-means聚类、EM聚类、模糊聚类比较.ppt

第1页 / 共26页
第2页 / 共26页
第3页 / 共26页
第4页 / 共26页
第5页 / 共26页
第6页 / 共26页
第7页 / 共26页
第8页 / 共26页
资料共26页,剩余部分请下载后查看
聚类 IRLAB
大纲 • 聚类分析简介 • 层次聚类 – 单连接和全连接聚类 – 组平均聚类 – 应用:改进语言模型 – 自顶向下聚类 • 非层次聚类 – K-均值 – EM算法
什么是聚类分析? • 聚类: 数据对象的集合 – 在同一个类中,数据对象是相似的 – 不同类之间的对象是不相似的 • 聚类分析 – 一个数据集合分组成几个聚类 • 聚类是一种无监督分类:没有预定义的类 • 典型应用 – 作为一个独立的工具 透视数据分布 – 可以作为其他算法的预处理步骤
聚类算法类型 • 层次聚类与非层次聚类 – 自底向上与自上向下(凝聚与分裂) – K-均值 • 软聚类与硬聚类 – K-均值 – 模糊聚类(EM算法)
层次聚类 • 自底向下的聚类 – 每一项自成一类 – 迭代,将最近的两类合为一类 • 自顶向下的聚类 – 将所有项看作一类 – 找出最不相似的项分裂出去成为两类
类的相似度度量 • 我们可以知道两个项之间的相似度,但 是聚类要求知道类与类之间的相似度 • 三种方法: – 单连接方法 – 全连接方法 – 组平均方法
分享到:
收藏