Linear Algebra Review and Reference
Zico Kolter (updated by Chuong Do)
September 30, 2015
Contents
1 基本概念和符号表示 ................................................................................................................. 3
1.1 基本符号 ............................................................................................................................................ 3
2 矩阵乘法 ................................................................................................................................... 4
2.1 向量-向量乘法 ................................................................................................................................... 4
2.2 矩阵-向量乘法 ................................................................................................................................... 5
2.3 矩阵-矩阵乘法 ................................................................................................................................... 6
3 操作和属性 ................................................................................................................................ 8
3.1 单位矩阵和对角矩阵 ........................................................................................................................ 8
3.2 转置 .................................................................................................................................................... 8
3.3 对称矩阵 ............................................................................................................................................ 9
3.4 迹 ........................................................................................................................................................ 9
3.5 范数 .................................................................................................................................................. 10
3.6 线性无关和秩 .................................................................................................................................. 11
3.7 逆矩阵 .............................................................................................................................................. 12
3.8 正交矩阵 .......................................................................................................................................... 12
3.9 矩阵的范围和零空间 ...................................................................................................................... 13
3.10 行列式 .......................................................................................................................................... 14
3.11 二次型和半正定矩阵 .................................................................................................................. 17
3.12 特征值和特征向量 ...................................................................................................................... 18
3.13 对称矩阵的特征值和特征向量 .................................................................................................. 19
4 矩阵运算 ..................................................................................................................................20
1
4.1 梯度 .................................................................................................................................................. 20
4.2 海森矩阵 (Hessian) .......................................................................................................................... 22
4.3 二次和线性函数的梯度和海森矩阵 .............................................................................................. 23
4.4 最小二乘法 ...................................................................................................................................... 24
4.5 行列式的梯度 .................................................................................................................................. 25
4.6 特征值优化 ...................................................................................................................................... 25
2
1 基本概念和符号表示
线性代数提供了一种简洁的表示和操作线性方程组的方式。如下面这组方程组:
4x1 −5x2
= −13
−2x1+
3x2 = 9.
方程组包含两个等式和两个自变量,运用高中的数学知识你可以找到方程组的唯一解
x1 和 x2(除非这两个等式可以做某种化简,比如第二个等式可以由第一个等式乘某个数得
到,不过我们上面的这个例子是只有唯一解的)。如果用矩阵表示上面的方程组,我们可
以简写为下式:
其中
.
我们即将看到用这种形式分析线性方程组的许多优点(包括很明显的节省空间)。
1.1 基本符号
我们使用下面的符号:
• 用 A ∈ Rm×n 表示具有 m 行 n 列的矩阵,其中 A 的元素是实数
• 用 x ∈ Rn 表示具有 n 个元素的向量。 按照惯例,n 维向量通常被认为是具有 n 行和
1 列的矩阵,称为列向量。如果我们要显式地表示一个行向量——一个具有 1 行和
n 列的矩阵,我们通常会写为 xT(这里 xT 表示 x 的转置,我们将很快定义转置)。
• 向量 x 的第 i 个元素定义为 xi :
• 用 aij (或 Aij, Ai,j, 等) 来表示矩阵 A 的第 i 行第 j 列个元素:
.
• 用 aj 或 A:,j 表示矩阵 A 的第 j 列:
.
3
• 表示第 i 行
:
.
.
• 注意这些定义容易让人模糊 (比如前两个定义中的 a1 和 并不是同一个向量)。通常,
符号的含义在使用中应该是非常清晰的。
2 矩阵乘法
两个矩阵 A ∈ Rm×n 和 B ∈ Rn×p 的乘积仍然是矩阵
其中
C = AB ∈ Rm×p,
.
注意:为了使矩阵乘积存在,A 中的列数必须等于 B 中的行数。看待矩阵乘法可以有很多
方面,我们首先来看一些特殊情况。
2.1 向量-向量乘法
有两个向量 x,y ∈ Rn, xT y 通常被称为向量的内积或点乘,其结果是一个实数,计算如下
可以看到内积真的只是矩阵乘法的特例。注意这个式子总是成立: xT y = yT x.
向量 x ∈ Rm, y ∈ Rn (不一定同维度), xyT ∈ Rm×n 称为向量的外积。 其结果是一个矩阵,
矩阵内元素 (xyT )ij = xiyj, ,如下:
.
4
举个例子来说明外积的用处, 用 1 ∈ Rn 来表示一个所有元素都是 1 的 n 维向量。然后有
一个矩阵 A ∈ Rm×n 的所有列均由向量 x ∈ Rm 组成。我们可以用外积将 A 简单表示为,
.
2.2 矩阵-向量乘法
给定矩阵 A ∈ Rm×n 和向量 x ∈ Rn, 其乘积为向量 y = Ax ∈ Rm。有几种方式来看待矩阵-向量
乘法,我们将依次展示。
如果把 A 用行向量表示,那么 Ax 可表示为,
.
换言之, y 的第个 i 元素等于的 A 矩阵的第 i 行与 x 的内积,
此外, 我们可以把 A 用列向量表示。 这时,
.
.
换句话说,y 是 A 的列向量的线性组合,其中线性组合的系数是 x 的元素。
目前为止我们都是在矩阵右侧乘以一个列向量, 但也有可能是在矩阵左侧乘以列向量。
这种情况记为 yT = xT A , A ∈ Rm×n ,x ∈ Rm, 且 y ∈ Rn。 和之前一样,我们可以将 yT 用两
种方式表示,这取决于我们将 A 写成行向量还是列向量。 首先我们将 A 用列向量表示,
.
这说明了 yT 的第 i 个 元素等于 x 和 A 矩阵第 i 列的内积。
最后, 将 A 用行向量表示,可以得到向量-矩阵乘积的最后一种表示,
5
yT = xT A
我们可以看到 yT 是 A 的行向量的线性组合,其中线性组合的系数是 x 的元素。
2.3 矩阵-矩阵乘法
了解前面的知识后,现在回到本节的标题,我们来看看四种不同的(但当然是等效的)看
待矩阵与矩阵相乘 C = AB 的方式。
首先,我们可以将矩阵与矩阵的乘法视为一组向量与向量的乘积。从定义可以看出,
最明显的是 C 的第(i,j)个元素等于 A 的第 i 行和 B 的第 j 列的内积。
如下,
注意到 A ∈ Rm×n , B ∈ Rn×p, ai ∈ Rn , bj ∈ Rn,所以上面所有的这些内积都能计算出来。
将 A 用行向量表示,B 用列向量表示是最“自然” 的。或者我们可以把 A 用列向量,B
用行向量表示。这种表示导致对 AB 更为复杂的解释,即 AB 是一组外积和。 如下,
.
换句话说,AB 等于 A 的第 i 列和第 i 行的外积的总和。在这种情况下,ai ∈ Rm ,bi ∈ Rp,
所以外积
维的矩阵,与 C 的维度一致。最后这个等式可能会让你感到困惑。
如果是这样,请自己花时间动手检查一下!
其次,我们还可以将矩阵和矩阵的乘法视为一组矩阵向量乘积。具体来说,如果我们
用列向量表示矩阵 B,我们可以将 C 的列向量表示为 A 矩阵和 B 的列向量之间的矩阵-向
量乘积。如下,
.
.
6
这里 C 的第 i 列由右侧向量 ci = Abi 的矩阵-向量乘积给出。 这些矩阵-向量的乘积可以依次
使用前一小节中给出的两个观点进行解释。 最后,我们有与之前类似的观点,我们用行
向量表示 A,并将 C 行视为 A 的行向量和 B 矩阵之间的矩阵-向量相乘。如下,
.
这里矩阵 C 的第 i 行由左侧的矩阵-向量相乘得到,
.
这么细致的解析矩阵乘法似乎有些过分,特别是我们在本节开头已经给出了初始定义
(一行数学公式)之后,马上又给出了所有后面这些观点。然而,几乎所有的线性代数都
是用来处理某种类型的矩阵乘法,所以花费一些时间来对这些提出的观点进行直观的理解
是非常值得的。
除此之外,更高一点的要求是了解矩阵乘法的一些基本属性,这是很有用的:
• 矩阵乘法可结合: (AB)C = A(BC).
• 矩阵乘法可分配: A(B + C) = AB + AC.
• 矩阵乘法一般不可交换 ;也就是说 AB ≠ BA. (例如,A ∈ Rm×n ,B ∈ Rn×q,如果 m 和
q 不相等,BA 甚至不存在!)
如果您不熟悉这些属性,请花时间自行验证。例如,为了检查矩阵乘法的结合律,假
设 A ∈ Rm×n, B ∈ Rn×p, C ∈ Rp×q,注意 AB ∈ Rm×p,所以(AB)C ∈ Rm×q。 类似地,BC ∈ Rn×q,所
以 A(BC) ∈ Rm×q。 因此,所得到的矩阵的维度是一致的。 为了表明矩阵乘法是可结合的,
可以检查(AB)C 的第(i,j)个元素是否等于 A(BC)的第(i,j)个元素。 我们可以使用矩阵乘法的
定义直接验证:
7
这里,第一个和最后两个等式只是使用矩阵乘法的定义,第三和第五个等式使用标量
乘法求和的分配律,第四个等式使用标量求和的交换律和结合律。 这种通过简化标量属
性来证明矩阵属性的技术将经常出现,因此请确保您熟悉它。
3 操作和属性
在本节中,我们介绍了矩阵和向量的几种操作和属性。希望大部分内容你都已经了解过,
这些笔记可以作为这些主题的参考。
3.1 单位矩阵和对角矩阵
单位矩阵记为 I ∈ Rn×n,是一个对角元素全是 1 其他元素全是 0 的方形矩阵,即
对任意矩阵 A ∈ Rm×n 均有如下属性,
AI = A = IA.
请注意,在某种意义上,单位矩阵的符号是不明确的,因为它没有指定 I 的维度。通常,
可以从上下文推断出 I 的维度,以便使矩阵乘法可行。 例如,在上面的等式中,AI = A 中
的 I 是 n×n 矩阵,而 A = IA 中的 I 是 m×m 矩阵。
对角矩阵是所有非对角元素都是 0 的矩阵。通常记为 D = diag(d1,d2,...,dn),即
显然, I = diag(1,1,...,1).
3.2 转置
矩阵的转置源于“翻转”行和列。 给定矩阵 A ∈ Rm×n,其转置记为 AT ∈ Rn×m,是 n×m 矩
阵,其元素为
8