矩阵迹的几何意义是什么
线性代数中有两个不变量很有意思,一个是方阵的行列式,另一个是方阵的迹。行列式
是对角阵元素乘起来的相似不变量,而迹是对角阵元素加起来的相似不变量。二者背后的本
质和意义是相同的,因此本篇文章就一起来解释一下。
首先,直接给出答案:行列式的意义就是方阵中的行或列向量所构成的“平行多面体”
的有向面积或有向体积;而迹的意义就是方阵中的行或列向量所构成的“平行多面体”的有
向周长;如果用矩阵来描述线性变换,那么行列式的意义就是从“体积”伸缩角度描述线性
变换 A 的综合作用效果。而迹的意义就是从周长伸缩的角度描述线性变换 A 在各个坐标轴
方向上的综合缩放效果。接下来详细解释。
我们首先来看行列式表示体积的解释,以二阶行列式和三阶行列式的为例:
对于高维的,其意义也是类似的。行列式的加减,其实就是体积之间的加减。行列式为
零,就表示在这个 n 维空间中这 n 个向量不能构成一个“体”,但是可以构成“点”或者“面”。
可是怎么理解这种事情呢?我们不妨换一个角度:对于一个对角阵,它的行列式的几何意义
比较好理解:对于二维平面就是长×宽;从三维空间就是长×宽×高;对于高维度的空间也
是一样。那么好,如果行列式对应的矩阵可以对角化,也就是说这个矩阵和一个对角阵相似,
问题就好理解了,还记得这个公式么
也就是先将 A 对角化,将坐标之间的耦合关系解除。我们知道相似变换就是把线性空间
里面的对象换了一组基来表示而已。这时复杂的几何体就变成一个规则的“空间几何体”,
有点类似长方体。然后取行列式的几何意义就清楚了,它真的是表示空间“几何体”的体积!
以上二维和三维行列式的例子中,行列式被解释为向量形成的图形的面积或体积。面积
或体积的定义是恒正的,而行列式是有正有负的,因此需要引入有向面积和有向体积的概念。
负的面积或体积在物理学中可能难以理解,但在数学中,它们和有向角的概念类似,都是对
空间镜面对称特性的一种刻画。如果行列式表示的是线性变换对体积的影响,那么行列式的
正负就表示了空间的定向。
如上图中,左边的黄色骰子(可以看成有单位的有向体积的物体)在经过了线性变换后
变成中间绿色的平行六边形,这时行列式为正,两者是同定向的,可以通过旋转和拉伸从一
个变成另一个。而骰子和右边的红色平行六边形之间也是通过线性变换得到的,但是无论怎
样旋转和拉伸,都无法使一个变成另一个,一定要通过镜面反射才行。这时两者之间的线性
12det()nA()[,,]TVabcabc
变换的行列式是负的。可以看出,线性变换可以分为两类,一类对应着正的行列式,保持空
间的定向不变,另一类对应负的行列式,颠倒空间的定向。
一旦你接受了体积有正负这一假设,那么接下来的理解就变得简单起来。对于矩阵的迹,
我们关键是要理解把特征值加起来有什么意义。首先从最简单的情况开始,如果特征值都大
于零,我们发现特征值加起来是某种“周长”的意义。对于二维平面就是周长=(长+宽)*2;
从三维空间就是周长=(长+宽+高)*4。对于多维的情况,我们忽略最后面乘的那个常数。
就得到如下关系:
特征值有正负,那么迹的值也就有正负。当坐标系发生变化,也就是矩阵不再是对角阵
的情况,那么这种特殊的“周长”的计算不是边长相加,而是每个主对角线元素的直接求和。
为什么非要抓住这个矩阵的对角线不放呢?因为每个对角线元素恰好对应一个坐标轴,矩阵
的对角线可以表示一个物体的相似性。在机器学习里,主要为了获取数据的特征值,那么就
是说,在任何一个矩阵计算出来之后,都可以简单化,只要获取矩阵的迹,就可以表示这一
块数据的最重要的特征了,这样就可以把很多无关紧要的数据删除掉,达到简化数据,提高
处理速度。
这里还存在一个问题,就是变换坐标系的事情,我们知道,同一个空间体积可以用不同
的基和坐标表示,我们可以分别算出这两组基表示下几何体的体积,其计算出来的值一般是
不一样的。那么,两个体积之间有什么关系呢?
答案是两个体积之间相差的是一个坐标变换矩阵的行列式!无论是线性变换,还是非线
性变换(比如微积分中的直角坐标和极坐标之间的变换),两个体积之间相差的都是一个行
列式的关系(微积分中相差的是雅克比行列式)。也就是第二种解释的伸缩因子。
这里顺便简单说一下雅克比行列式吧,在微积分中,我们在进行
的坐标
变换时,我们可以得到全微分 dx,dy 和 du,dv 之间的关系,写成矩阵形式就是
于是,可以得到体积微元之间的关系就是
,其中
就是我们
熟悉的雅克比行列式!对于直角坐标和极坐标之间有
,对于三
维的关系是
。
行列式是用来描述线性变换前后体积伸缩的综合效果,而矩阵的迹则是用来描述线性变
换前后周长伸缩的综合效果。这里所说的综合效果不是对某一个向量而言,而是一个总体效
果。比如,如果线性变换矩阵的行列式是小于零,我们就知道这个变换是将体积颠倒空间方
向。如果线性变换矩阵的迹小于零,我们就知道这个变换是将向量朝反方向作用。描述行列
式和迹从不同角度来描述矩阵对向量的缩放作用,二者都只是从单一的方面进行描述。
12()ntrA(,)(,)xyuv→xxxxuvuvyyyyuvuvdxdudvdxduduJdydvdvdydudv→dddetdudxyJvdetJdddetddddxyJrrr2dddetddsinddxydzJrdrrd
为什么行列式和矩阵的迹在改变坐标系前后都不会发生改变呢?直观理解就是矩阵的
这种对向量的缩放性能和选取的坐标系没有关系,矩阵的行列式和迹都是描述矩阵性质的的
固有参数,就像振动系统的固有频率一样,与坐标系的选取无关。另一方面,从公式的角度
理解就是伟大的韦达定理了:
特征值是特征多项式|A-λI|的根,从公示上我们会发现,其实迹和行列式只不过是比较
特殊的两个量,还有其他更多的不变量,只不过由于计算的复杂,我们常用的只有行列式和
矩阵的迹而已。
希望这篇拙作能起到抛砖引玉的作用,欢迎大家留言讨论。也欢迎加入 QQ 群下载《神
奇的矩阵》和《神奇的矩阵第二季》最新版本了解更多有关线性代数和矩阵的知识。
111012121121312324212120() ...()()()()()(1)nnnnnnnnnnnnnPxxaxaxaxxxaaa