2019/1/9
CodingLabs
keep coding, keep foolish
CodingLabs - PCA的数学原理
首页 | 标签 | 关于我 | +订阅 | 微博
PCA的数学原理
作者 张洋 | 发布于 2013-06-22
机器学习 线性代数 PCA
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数
据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降
维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原
理。这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么。
当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所
以整个文章不会引入严格的数学推导。希望读者在看完这篇文章后能更好的明白PCA的工作原
理。
数据的向量表示及降维问题
一般情况下,在数据挖掘和机器学习中,数据被表示为向量。例如某个淘宝店2012年全年的流量
及交易情况可以看成一组记录的集合,其中每一天的数据是一条记录,格式如下:
(日期, 浏览量, 访客数, 下单数, 成交数, 成交金额)
其中“日期”是一个记录标志而非度量值,而数据挖掘关心的大多是度量值,因此如果我们忽略日
期这个字段后,我们得到一组记录,每条记录可以被表示为一个五维向量,其中一条看起来大约
是这个样子:
注意这里我用了转置,因为习惯上使用列向量表示一条记录(后面会看到原因),本文后面也会
遵循这个准则。不过为了方便有时我会省略转置符号,但我们说到向量默认都是指列向量。
我们当然可以对这一组五维向量进行分析和挖掘,不过我们知道,很多机器学习算法的复杂度和
数据的维数有着密切关系,甚至与维数呈指数级关联。当然,这里区区五维的数据,也许还无所
谓,但是实际机器学习中处理成千上万甚至几十万维的情况也并不罕见,在这种情况下,机器学
习的资源消耗是不可接受的,因此我们必须对数据进行降维。
降维当然意味着信息的丢失,不过鉴于实际数据本身常常存在的相关性,我们可以想办法在降维
的同时将信息的损失尽量降低。
http://blog.codinglabs.org/articles/pca-tutorial.html
1/15
(
5
0
0
,
2
4
0
,
2
5
,
1
3
,
2
3
1
2
.
1
5
)
T
2019/1/9
CodingLabs - PCA的数学原理
举个例子,假如某学籍数据有两列M和F,其中M列的取值是如何此学生为男性取值1,为女性取
值0;而F列是学生为女性取值1,男性取值0。此时如果我们统计全部学籍数据,会发现对于任何
一条记录来说,当M为1时F必定为0,反之当M为0时F必定为1。在这种情况下,我们将M或F去
掉实际上没有任何信息的损失,因为只要保留一列就可以完全还原另一列。
当然上面是一个极端的情况,在现实中也许不会出现,不过类似的情况还是很常见的。例如上面
淘宝店铺的数据,从经验我们可以知道,“浏览量”和“访客数”往往具有较强的相关关系,而“下单
数”和“成交数”也具有较强的相关关系。这里我们非正式的使用“相关关系”这个词,可以直观理解
为“当某一天这个店铺的浏览量较高(或较低)时,我们应该很大程度上认为这天的访客数也较高
(或较低)”。后面的章节中我们会给出相关性的严格数学定义。
这种情况表明,如果我们删除浏览量或访客数其中一个指标,我们应该期待并不会丢失太多信
息。因此我们可以删除一个,以降低机器学习算法的复杂度。
上面给出的是降维的朴素思想描述,可以有助于直观理解降维的动机和可行性,但并不具有操作
指导意义。例如,我们到底删除哪一列损失的信息才最小?亦或根本不是单纯删除几列,而是通
过某些变换将原始数据变为更少的列但又使得丢失的信息最小?到底如何度量丢失信息的多少?
如何根据原始数据决定具体的降维操作步骤?
要回答上面的问题,就要对降维问题进行数学化和形式化的讨论。而PCA是一种具有严格数学基
础并且已被广泛采用的降维方法。下面我不会直接描述PCA,而是通过逐步分析问题,让我们一
起重新“发明”一遍PCA。
向量的表示及基变换
既然我们面对的数据被抽象为一组向量,那么下面有必要研究一些向量的数学性质。而这些数学
性质将成为后续导出PCA的理论基础。
内积与投影
下面先来看一个高中就学过的向量运算:内积。两个维数相同的向量的内积被定义为:
内积运算将两个向量映射为一个实数。其计算方式非常容易理解,但是其意义并不明显。下面我
们分析内积的几何意义。假设A和B是两个n维向量,我们知道n维向量可以等价表示为n维空间中
,
的一条从原点发射的有向线段,为了简单起见我们假设A和B均为二维向量,则
。则在二维平面上A和B可以用两条发自原点的有向线段表示,见下图:
http://blog.codinglabs.org/articles/pca-tutorial.html
2/15
(
,
,
⋯
,
⋅
(
,
,
⋯
,
=
+
+
⋯
+
a
1
a
2
a
n
)
T
b
1
b
2
b
n
)
T
a
1
b
1
a
2
b
2
a
n
b
n
A
=
(
,
)
x
1
y
1
B
=
(
,
)
x
2
y
2
2019/1/9
CodingLabs - PCA的数学原理
好,现在我们从A点向B所在直线引一条垂线。我们知道垂线与B的交点叫做A在B上的投影,再设
A与B的夹角是a,则投影的矢量长度为
是A线段的标量长度。
,其中
是向量A的模,也就
注意这里我们专门区分了矢量长度和标量长度,标量长度总是大于等于0,值就是线段的长度;
而矢量长度可能为负,其绝对值是线段长度,而符号取决于其方向与标准方向相同或相反。
到这里还是看不出内积和这东西有什么关系,不过如果我们将内积表示为另一种我们熟悉的形
式:
现在事情似乎是有点眉目了:A与B的内积等于A到B的投影长度乘以B的模。再进一步,如果我们
假设B的模为1,即让
,那么就变成了:
也就是说,设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度!这就是内积
的一种几何解释,也是我们得到的第一个重要结论。在后面的推导中,将反复使用这个结论。
http://blog.codinglabs.org/articles/pca-tutorial.html
3/15
|
A
|
c
o
s
(
a
)
|
A
|
=
+
x
2
1
y
2
1
−
−
−
−
−
−
√
A
⋅
B
=
|
A
|
|
B
|
c
o
s
(
a
)
|
B
|
=
1
A
⋅
B
=
|
A
|
c
o
s
(
a
)
2019/1/9
基
CodingLabs - PCA的数学原理
下面我们继续在二维空间内讨论向量。上文说过,一个二维向量可以对应二维笛卡尔直角坐标系
中从原点出发的一个有向线段。例如下面这个向量:
在代数表示方面,我们经常用线段终点的点坐标表示向量,例如上面的向量可以表示为(3,2),这
是我们再熟悉不过的向量表示。
不过我们常常忽略,只有一个(3,2)本身是不能够精确表示一个向量的。我们仔细看一下,这里的
3实际表示的是向量在x轴上的投影值是3,在y轴上的投影值是2。也就是说我们其实隐式引入了
一个定义:以x轴和y轴上正方向长度为1的向量为标准。那么一个向量(3,2)实际是说在x轴投影为
3而y轴的投影为2。注意投影是一个矢量,所以可以为负。
更正式的说,向量(x,y)实际上表示线性组合:
不难证明所有二维向量都可以表示为这样的线性组合。此处(1,0)和(0,1)叫做二维空间中的一组
基。
http://blog.codinglabs.org/articles/pca-tutorial.html
4/15
x
(
1
,
0
+
y
(
0
,
1
)
T
)
T
2019/1/9
CodingLabs - PCA的数学原理
所以,要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以
了。只不过我们经常省略第一步,而默认以(1,0)和(0,1)为基。
我们之所以默认选择(1,0)和(0,1)为基,当然是比较方便,因为它们分别是x和y轴正方向上的单位
向量,因此就使得二维平面上点坐标和向量一一对应,非常方便。但实际上任何两个线性无关的
二维向量都可以成为一组基,所谓线性无关在二维平面内可以直观认为是两个不在一条直线上的
向量。
例如,(1,1)和(-1,1)也可以成为一组基。一般来说,我们希望基的模是1,因为从内积的意义可以
看到,如果基的模是1,那么就可以方便的用向量点乘基而直接获得其在新基上的坐标了!实际
上,对应任何一个向量我们总可以找到其同方向上模为1的向量,只要让两个分量分别除以模就
好了。例如,上面的基可以变为
和
。
现在,我们想获得(3,2)在新基上的坐标,即在两个方向上的投影矢量值,那么根据内积的几何意
义,我们只要分别计算(3,2)和两个基的内积,不难得到新的坐标为
。下图给出了新
的基以及(3,2)在新基上坐标值的示意图:
http://blog.codinglabs.org/articles/pca-tutorial.html
5/15
(
,
)
1
2
√
1
2
√
(
−
,
)
1
2
√
1
2
√
(
,
−
)
5
2
√
1
2
√
2019/1/9
CodingLabs - PCA的数学原理
另外这里要注意的是,我们列举的例子中基是正交的(即内积为0,或直观说相互垂直),但可
以成为一组基的唯一要求就是线性无关,非正交的基也是可以的。不过因为正交基有较好的性
质,所以一般使用的基都是正交的。
基变换的矩阵表示
下面我们找一种简便的方式来表示基变换。还是拿上面的例子,想一下,将(3,2)变换为新基上的
坐标,就是用(3,2)与第一个基做内积运算,作为第一个新的坐标分量,然后用(3,2)与第二个基做
内积运算,作为第二个新坐标的分量。实际上,我们可以用矩阵相乘的形式简洁的表示这个变
换:
太漂亮了!其中矩阵的两行分别为两个基,乘以原向量,其结果刚好为新基的坐标。可以稍微推
广一下,如果我们有m个二维向量,只要将二维向量按列排成一个两行m列矩阵,然后用“基矩
阵”乘以这个矩阵,就得到了所有这些向量在新基下的值。例如(1,1),(2,2),(3,3),想变换到刚
才那组基上,则可以这样表示:
http://blog.codinglabs.org/articles/pca-tutorial.html
6/15
(
)
(
)
=
(
)
1
/
2
–
√
−
1
/
2
–
√
1
/
2
–
√
1
/
2
–
√
3
2
5
/
2
–
√
−
1
/
2
–
√
2019/1/9
CodingLabs - PCA的数学原理
于是一组向量的基变换被干净的表示为矩阵的相乘。
一般的,如果我们有M个N维向量,想将其变换为由R个N维向量表示的新空间中,那么首先将R
个基按行组成矩阵A,然后将向量按列组成矩阵B,那么两矩阵的乘积AB就是变换结果,其中AB
的第m列为A中第m列变换后的结果。
数学表示为:
其中 是一个行向量,表示第i个基, 是一个列向量,表示第j个原始数据记录。
特别要注意的是,这里R可以小于N,而R决定了变换后数据的维数。也就是说,我们可以将一N
维数据变换到更低维度的空间中去,变换后的维度取决于基的数量。因此这种矩阵相乘的表示也
可以表示降维变换。
最后,上述分析同时给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每
一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。更抽象的说,一个矩阵可以
表示一种线性变换。很多同学在学线性代数时对矩阵相乘的方法感到奇怪,但是如果明白了矩阵
相乘的物理意义,其合理性就一目了然了。
协方差矩阵及优化目标
上面我们讨论了选择不同的基可以对同样一组数据给出不同的表示,而且如果基的数量少于向量
本身的维数,则可以达到降维的效果。但是我们还没有回答一个最最关键的问题:如何选择基才
是最优的。或者说,如果我们有一组N维向量,现在要将其降到K维(K小于N),那么我们应该
如何选择K个基才能最大程度保留原有的信息?
要完全数学化这个问题非常繁杂,这里我们用一种非形式化的直观方法来看这个问题。
为了避免过于抽象的讨论,我们仍以一个具体的例子展开。假设我们的数据由五条记录组成,将
它们表示成矩阵形式:
其中每一列为一条数据记录,而一行为一个字段。为了后续处理方便,我们首先将每个字段内所
有值都减去字段均值,其结果是将每个字段都变为均值为0(这样做的道理和好处后面会看
http://blog.codinglabs.org/articles/pca-tutorial.html
7/15
(
)
(
)
=
(
)
1
/
2
–
√
−
1
/
2
–
√
1
/
2
–
√
1
/
2
–
√
1
1
2
2
3
3
2
/
2
–
√
0
4
/
2
–
√
0
6
/
2
–
√
0
(
)
=
⎛
⎝
⎜
⎜
⎜
⎜
p
1
p
2
⋮
p
R
⎞
⎠
⎟
⎟
⎟
⎟
a
1
a
2
⋯
a
M
⎛
⎝
⎜
⎜
⎜
⎜
⎜
p
1
a
1
p
2
a
1
⋮
p
R
a
1
p
1
a
2
p
2
a
2
⋮
p
R
a
2
⋯
⋯
⋱
⋯
p
1
a
M
p
2
a
M
⋮
p
R
a
M
⎞
⎠
⎟
⎟
⎟
⎟
⎟
p
i
a
j
(
)
1
1
1
3
2
3
4
4
2
4
2019/1/9
到)。
CodingLabs - PCA的数学原理
我们看上面的数据,第一个字段均值为2,第二个字段均值为3,所以变换后:
我们可以看下五条数据在平面直角坐标系内的样子:
现在问题来了:如果我们必须使用一维来表示这些数据,又希望尽量保留原始的信息,你要如何
选择?
通过上一节对基变换的讨论我们知道,这个问题实际上是要在二维平面中选择一个方向,将所有
数据都投影到这个方向所在直线上,用投影值表示原始记录。这是一个实际的二维降到一维的问
题。
那么如何选择这个方向(或者说基)才能尽量保留最多的原始信息呢?一种直观的看法是:希望
投影后的投影值尽可能分散。
http://blog.codinglabs.org/articles/pca-tutorial.html
8/15
(
)
−
1
−
2
−
1
0
0
0
2
1
0
1