logo资料库

cs229-Linear Algebra中文版.pdf

第1页 / 共26页
第2页 / 共26页
第3页 / 共26页
第4页 / 共26页
第5页 / 共26页
第6页 / 共26页
第7页 / 共26页
第8页 / 共26页
资料共26页,剩余部分请下载后查看
Linear Algebra Review and Reference Zico Kolter (updated by Chuong Do) September 30, 2015 Contents 1 基本概念和符号表示 ................................................................................................................. 3 1.1 基本符号 ............................................................................................................................................ 3 2 矩阵乘法 ................................................................................................................................... 4 2.1 向量-向量乘法 ................................................................................................................................... 4 2.2 矩阵-向量乘法 ................................................................................................................................... 5 2.3 矩阵-矩阵乘法 ................................................................................................................................... 6 3 操作和属性 ................................................................................................................................ 8 3.1 单位矩阵和对角矩阵 ........................................................................................................................ 8 3.2 转置 .................................................................................................................................................... 8 3.3 对称矩阵 ............................................................................................................................................ 9 3.4 迹 ........................................................................................................................................................ 9 3.5 范数 .................................................................................................................................................. 10 3.6 线性无关和秩 .................................................................................................................................. 11 3.7 逆矩阵 .............................................................................................................................................. 12 3.8 正交矩阵 .......................................................................................................................................... 12 3.9 矩阵的范围和零空间 ...................................................................................................................... 13 3.10 行列式 .......................................................................................................................................... 14 3.11 二次型和半正定矩阵 .................................................................................................................. 17 3.12 特征值和特征向量 ...................................................................................................................... 18 3.13 对称矩阵的特征值和特征向量 .................................................................................................. 19 4 矩阵运算 ..................................................................................................................................20 1
4.1 梯度 .................................................................................................................................................. 20 4.2 海森矩阵 (Hessian) .......................................................................................................................... 22 4.3 二次和线性函数的梯度和海森矩阵 .............................................................................................. 23 4.4 最小二乘法 ...................................................................................................................................... 24 4.5 行列式的梯度 .................................................................................................................................. 25 4.6 特征值优化 ...................................................................................................................................... 25 2
1 基本概念和符号表示 线性代数提供了一种简洁的表示和操作线性方程组的方式。如下面这组方程组: 4x1 −5x2 = −13 −2x1+ 3x2 = 9. 方程组包含两个等式和两个自变量,运用高中的数学知识你可以找到方程组的唯一解 x1 和 x2(除非这两个等式可以做某种化简,比如第二个等式可以由第一个等式乘某个数得 到,不过我们上面的这个例子是只有唯一解的)。如果用矩阵表示上面的方程组,我们可 以简写为下式: 其中 . 我们即将看到用这种形式分析线性方程组的许多优点(包括很明显的节省空间)。 1.1 基本符号 我们使用下面的符号: • 用 A ∈ Rm×n 表示具有 m 行 n 列的矩阵,其中 A 的元素是实数 • 用 x ∈ Rn 表示具有 n 个元素的向量。 按照惯例,n 维向量通常被认为是具有 n 行和 1 列的矩阵,称为列向量。如果我们要显式地表示一个行向量——一个具有 1 行和 n 列的矩阵,我们通常会写为 xT(这里 xT 表示 x 的转置,我们将很快定义转置)。 • 向量 x 的第 i 个元素定义为 xi : • 用 aij (或 Aij, Ai,j, 等) 来表示矩阵 A 的第 i 行第 j 列个元素: . • 用 aj 或 A:,j 表示矩阵 A 的第 j 列: . 3
• 表示第 i 行 : . . • 注意这些定义容易让人模糊 (比如前两个定义中的 a1 和 并不是同一个向量)。通常, 符号的含义在使用中应该是非常清晰的。 2 矩阵乘法 两个矩阵 A ∈ Rm×n 和 B ∈ Rn×p 的乘积仍然是矩阵 其中 C = AB ∈ Rm×p, . 注意:为了使矩阵乘积存在,A 中的列数必须等于 B 中的行数。看待矩阵乘法可以有很多 方面,我们首先来看一些特殊情况。 2.1 向量-向量乘法 有两个向量 x,y ∈ Rn, xT y 通常被称为向量的内积或点乘,其结果是一个实数,计算如下 可以看到内积真的只是矩阵乘法的特例。注意这个式子总是成立: xT y = yT x. 向量 x ∈ Rm, y ∈ Rn (不一定同维度), xyT ∈ Rm×n 称为向量的外积。 其结果是一个矩阵, 矩阵内元素 (xyT )ij = xiyj, ,如下: . 4
举个例子来说明外积的用处, 用 1 ∈ Rn 来表示一个所有元素都是 1 的 n 维向量。然后有 一个矩阵 A ∈ Rm×n 的所有列均由向量 x ∈ Rm 组成。我们可以用外积将 A 简单表示为, . 2.2 矩阵-向量乘法 给定矩阵 A ∈ Rm×n 和向量 x ∈ Rn, 其乘积为向量 y = Ax ∈ Rm。有几种方式来看待矩阵-向量 乘法,我们将依次展示。 如果把 A 用行向量表示,那么 Ax 可表示为, . 换言之, y 的第个 i 元素等于的 A 矩阵的第 i 行与 x 的内积, 此外, 我们可以把 A 用列向量表示。 这时, . . 换句话说,y 是 A 的列向量的线性组合,其中线性组合的系数是 x 的元素。 目前为止我们都是在矩阵右侧乘以一个列向量, 但也有可能是在矩阵左侧乘以列向量。 这种情况记为 yT = xT A , A ∈ Rm×n ,x ∈ Rm, 且 y ∈ Rn。 和之前一样,我们可以将 yT 用两 种方式表示,这取决于我们将 A 写成行向量还是列向量。 首先我们将 A 用列向量表示, . 这说明了 yT 的第 i 个 元素等于 x 和 A 矩阵第 i 列的内积。 最后, 将 A 用行向量表示,可以得到向量-矩阵乘积的最后一种表示, 5
yT = xT A 我们可以看到 yT 是 A 的行向量的线性组合,其中线性组合的系数是 x 的元素。 2.3 矩阵-矩阵乘法 了解前面的知识后,现在回到本节的标题,我们来看看四种不同的(但当然是等效的)看 待矩阵与矩阵相乘 C = AB 的方式。 首先,我们可以将矩阵与矩阵的乘法视为一组向量与向量的乘积。从定义可以看出, 最明显的是 C 的第(i,j)个元素等于 A 的第 i 行和 B 的第 j 列的内积。 如下, 注意到 A ∈ Rm×n , B ∈ Rn×p, ai ∈ Rn , bj ∈ Rn,所以上面所有的这些内积都能计算出来。 将 A 用行向量表示,B 用列向量表示是最“自然” 的。或者我们可以把 A 用列向量,B 用行向量表示。这种表示导致对 AB 更为复杂的解释,即 AB 是一组外积和。 如下, . 换句话说,AB 等于 A 的第 i 列和第 i 行的外积的总和。在这种情况下,ai ∈ Rm ,bi ∈ Rp, 所以外积 维的矩阵,与 C 的维度一致。最后这个等式可能会让你感到困惑。 如果是这样,请自己花时间动手检查一下! 其次,我们还可以将矩阵和矩阵的乘法视为一组矩阵向量乘积。具体来说,如果我们 用列向量表示矩阵 B,我们可以将 C 的列向量表示为 A 矩阵和 B 的列向量之间的矩阵-向 量乘积。如下, . . 6
这里 C 的第 i 列由右侧向量 ci = Abi 的矩阵-向量乘积给出。 这些矩阵-向量的乘积可以依次 使用前一小节中给出的两个观点进行解释。 最后,我们有与之前类似的观点,我们用行 向量表示 A,并将 C 行视为 A 的行向量和 B 矩阵之间的矩阵-向量相乘。如下, . 这里矩阵 C 的第 i 行由左侧的矩阵-向量相乘得到, . 这么细致的解析矩阵乘法似乎有些过分,特别是我们在本节开头已经给出了初始定义 (一行数学公式)之后,马上又给出了所有后面这些观点。然而,几乎所有的线性代数都 是用来处理某种类型的矩阵乘法,所以花费一些时间来对这些提出的观点进行直观的理解 是非常值得的。 除此之外,更高一点的要求是了解矩阵乘法的一些基本属性,这是很有用的: • 矩阵乘法可结合: (AB)C = A(BC). • 矩阵乘法可分配: A(B + C) = AB + AC. • 矩阵乘法一般不可交换 ;也就是说 AB ≠ BA. (例如,A ∈ Rm×n ,B ∈ Rn×q,如果 m 和 q 不相等,BA 甚至不存在!) 如果您不熟悉这些属性,请花时间自行验证。例如,为了检查矩阵乘法的结合律,假 设 A ∈ Rm×n, B ∈ Rn×p, C ∈ Rp×q,注意 AB ∈ Rm×p,所以(AB)C ∈ Rm×q。 类似地,BC ∈ Rn×q,所 以 A(BC) ∈ Rm×q。 因此,所得到的矩阵的维度是一致的。 为了表明矩阵乘法是可结合的, 可以检查(AB)C 的第(i,j)个元素是否等于 A(BC)的第(i,j)个元素。 我们可以使用矩阵乘法的 定义直接验证: 7
这里,第一个和最后两个等式只是使用矩阵乘法的定义,第三和第五个等式使用标量 乘法求和的分配律,第四个等式使用标量求和的交换律和结合律。 这种通过简化标量属 性来证明矩阵属性的技术将经常出现,因此请确保您熟悉它。 3 操作和属性 在本节中,我们介绍了矩阵和向量的几种操作和属性。希望大部分内容你都已经了解过, 这些笔记可以作为这些主题的参考。 3.1 单位矩阵和对角矩阵 单位矩阵记为 I ∈ Rn×n,是一个对角元素全是 1 其他元素全是 0 的方形矩阵,即 对任意矩阵 A ∈ Rm×n 均有如下属性, AI = A = IA. 请注意,在某种意义上,单位矩阵的符号是不明确的,因为它没有指定 I 的维度。通常, 可以从上下文推断出 I 的维度,以便使矩阵乘法可行。 例如,在上面的等式中,AI = A 中 的 I 是 n×n 矩阵,而 A = IA 中的 I 是 m×m 矩阵。 对角矩阵是所有非对角元素都是 0 的矩阵。通常记为 D = diag(d1,d2,...,dn),即 显然, I = diag(1,1,...,1). 3.2 转置 矩阵的转置源于“翻转”行和列。 给定矩阵 A ∈ Rm×n,其转置记为 AT ∈ Rn×m,是 n×m 矩 阵,其元素为 8
分享到:
收藏