流形学习问题
杨 剑
中国科学院自动化研究所
2004年12月29日
维数约简
增加信
息量
提高准
确性
维数灾难
增加特
征数
类
器
的
难
度
增
加
训
练
分
解决办法:选取尽可能多的, 可能有用的特征, 然后根据
需要进行特征约简.
特征约简
特
征
约
简
特征选择
特征抽取
依据某一标准选择
性质最突出的特征
经已有特征的某种
变换获取约简特征
试验数据分析,数据可视化(通常为2维或3
维)等也需要维数约简
Outline
Ø 线性维数约简方法
Ø流形和维数约简.
Ø流形学习的一些数学基础.
Ø几种流形学习算法简介:LLE, Isomap, Laplacian
Eigenmap.
Ø流形学习问题的简单探讨.
线性约简方法
Ø 通过特征的线性组合来降维.
Ø 本质上是把数据投影到低维线性子空间.
Ø 线性方法相对比较简单且容易计算.
Ø 两种经典且广泛使用的线性变换的方法:
主成分分析 (PCA);
多重判别分析 (MDA).
主成分分析 ( PCA )
Ø PCA的目的:寻找能够表示采样数据的最好的投影子
空间.
Ø PCA的求解:对样本的散布矩阵进行特征值分解, 所
求子空间为过样本均值, 以最大特征值所对应的特征向量
为方向的子空间.
Principal
component
主成分分析
Ø PCA对于椭球状分布的样本集有很好的效果, 学
习所得的主方向就是椭球的主轴方向.
Ø PCA 是一种非监督的算法, 能找到很好地代表所
有样本的方向, 但这个方向对于分类未必是最有利的.
线性判别分析(LDA)1
Ø LDA是一种监督的维数约简方法.
Ø LDA的思想: 寻找最能把两类样本分开的投影直线.
Ø LDA的目标: 使投影后两类样本的均值之差与投影
样本的总类散布的比值最大 .
Best projection
direction for
classification