聚类
IRLAB
大纲
• 聚类分析简介
• 层次聚类
– 单连接和全连接聚类
– 组平均聚类
– 应用:改进语言模型
– 自顶向下聚类
• 非层次聚类
– K-均值
– EM算法
什么是聚类分析?
• 聚类: 数据对象的集合
– 在同一个类中,数据对象是相似的
– 不同类之间的对象是不相似的
• 聚类分析
– 一个数据集合分组成几个聚类
• 聚类是一种无监督分类:没有预定义的类
• 典型应用
– 作为一个独立的工具 透视数据分布
– 可以作为其他算法的预处理步骤
聚类算法类型
• 层次聚类与非层次聚类
– 自底向上与自上向下(凝聚与分裂)
– K-均值
• 软聚类与硬聚类
– K-均值
– 模糊聚类(EM算法)
层次聚类
• 自底向下的聚类
– 每一项自成一类
– 迭代,将最近的两类合为一类
• 自顶向下的聚类
– 将所有项看作一类
– 找出最不相似的项分裂出去成为两类
类的相似度度量
• 我们可以知道两个项之间的相似度,但
是聚类要求知道类与类之间的相似度
• 三种方法:
– 单连接方法
– 全连接方法
– 组平均方法