《深度学习》花书精华理解：线性代数

1、重要名词（1）标量：scalar;（2）向量：vector（3）矩阵：matrix（4）张量：tensor（5）转置：transpose（6）主对角线：main diagonal（7）广播：broadcasting（8）矩阵乘积：matrix product（9）矩阵对应元素乘积：element-wise product（10）向量点积：dot product（11）矩阵逆：matrix in

sapienst

1378人浏览 · 2021-03-04 15:34:11

sapienst · 2021-03-04 15:34:11 发布

1、重要名词

（1）标量：scalar
（2）向量：vector
（3）矩阵：matrix
（4）张量：tensor
（5）转置：transpose
（6）主对角线：main diagonal
（7）广播：broadcasting
（8）矩阵乘积：matrix product
（9）矩阵对应元素乘积：element-wise product
（10）向量点积：dot product
（11）矩阵逆：matrix inversion
（12）单位矩阵：identity matrix
（13）生成子空间：span
（14）值域：range
（15）线性相关：linear dependence
（16）线性无关：linearly independent
（17）方阵：square
（18）奇异的：singular
（19）范数：norm；欧几里得范数：Euclidean norm；Frobenius norm
（20）对角矩阵：diagonal matrix
（21）对称矩阵：symmetric matrix
（22）正交：orthogonal；标准正交：orthonormal
（23）正交矩阵：orthonormal matrix
（24）特征分解：eigen decomposition
（25）特征向量：eigen vector
（26）特征值：eigen value
（27）正定：positive definite
（28）半正定：positive semidefinite
（29）奇异值分解：singular value decomposition；奇异值：singular value
（30）迹：trace
（31）主成分分析：principle components analysis

2、线性方程组（矩阵）的解

（1）线性方程组：A x = b => $A^{-1}Ax= A^{-1} b$ $Ix=A^{-1}b$ $x=A^{-1}b$
能否找到一个逆矩阵 $A^{-1}$ ,是线性方程组有没有解的关键，问题也就从求线性方程组的解转化为求逆矩阵 $A^{-1}$ 。
（2）matrix inversion 是否存在对线性方程组的解有何影响？
如果matrix inversion存在，那么线性方程组恰好存在一个解。但对于某些b的值，有可能不存在解，或存在无穷多个解（ $A^{-1}$ 不存在），不存在多于1个解少于无穷多个解的情况。因为如果 $x$ 和 $y$ 是某方程组的解，则 $z = a x + (1 - a) y$ 一定是方程组的解。
（3）生成子空间与线性方程组的解之间的关系？
将A的列向量看作从原点出发的不同方向，确定有多少种方法可以到达向量b。向量x中的每个元素表示我们应该沿着这个方向走多远，这种操作称为线性组合。原始向量线性组合后所能抵达的点的集合称为生成子空间。确定 $A x = b$ 是否有解，相当于确定向量b是否在A列向量的生成子空间中（A的值域）。
（4）线性方程组对任意向量 $b∈R^{m}$ 都存在解的充要条件？
A的值域构成整个 $R^{m}$ ，即A至少有m列，即n≥m（A是m行n列的矩阵）。因为A中的部分列向量可能是线性相关的，线性相关会降低值域维度，所以不仅要使n≥m,还要保证A的列向量至少包含m个线性无关的向量。
（5）如何确保线性方程组只有一个解？
因为A中要保证n≥m，且保证有m个线性无关的向量。如果n=m,则在满足上述条件的情况下，能够保证只存在1组线性无关的向量；如果n>m，有可能存在多组线性无关的向量。所以吗，若想方程组有唯一解，必须要求A是方阵，且m=n。所有列向量都是线性无关的方程称为奇异的。

3、范数

定义：范数是用来衡量一个向量到原点的大小。
欧几里得范数：二范数也称为欧几里得范数，在机器学习中出现频繁。
平方二范数：也可以用来衡量向量大小，主要特点1）可以直接通过点积 $x^{T}x$ 来计算；2）对x中每个元素的倒数只与元素本身有关，而 $L^{2}$ 范数中每个元素的倒数都与整个向量有关；3）在原点附近增长缓慢，难以区分零元素和很小的元素。这时候常用一范数来代替。一范数也常作为非零元素数目计数的替代函数。
Frobenius norm：衡量矩阵大小。类似于二范数。

4、特殊类型的矩阵和向量

（1）对角矩阵：主对角线上包含非零元素，不一定是方阵。对角矩阵最大的优点是1）乘法计算很高效， $d i a g (v) x$ 是对x中的每个元素放大 $v i$ 倍；2）对角方阵的逆矩阵求解很高效，当且仅当对角元素都是非零值；3）非方阵的对角矩阵没有逆矩阵，但仍然可以高效的计算它们的乘法（广播机制），瘦长的矩阵填0，矮款的矩阵舍弃。
（2）对称矩阵：转置和本身相等。标准正交：这些向量不但相互正交，而且二范数都为1.
（3）正交矩阵：行向量和列向量是分别标准正交的方阵。正交矩阵的优势在于求逆计算代价小，正交矩阵的逆矩阵与转置相等。

5、矩阵分解

（1）特征分解：将矩阵分解为一组特征向量和特征值 $Av=λvAv=\lambda v$
因为如果v是矩阵A的特征向量，那么将v缩放s倍，sv依然是A的特征向量，且其对应的特征值相同，所以一般研究的都是单位特征向量。我们在深度学习相关算法的研究中，只考虑可以分解的实对称矩阵，可以将其分解为：
$A=Qdiag(λ)QT)A=Qdiag(\lambda )Q^{T})$
其中Q是由A的特征向量组成的正交矩阵。由于Q是正交矩阵，所以可以将A看做沿着vi方向延展 $λi\lambda i$ 倍的空间。
虽然任意一个实对称矩阵都可以进行特征分解，但特征分解可能并不唯一。如果多个特征向量具有相同的特征值，那么这些特征向量组成的生成子空间中，任意一组正交的向量都是该特征值对应的特征向量，可以构成多个不同的Q。所以我们习惯将diag( $λ\lambda$ )中的元素降序排列，在所有的特征值都互不相等的时候，Q就是唯一的了。同时，也可以根据特征值中是否含有0，判断矩阵是否是奇异的。
半正定矩阵：所有特征值都是非负数的矩阵。其主要优势是，能够保证所有的向量x， $x^{T}Ax≥0$ .
（2）奇异值分解：每个实数矩阵都有一个奇异值分解，但不一定有特征分解。例如，非方阵的矩阵没有特征分解，这时只能使用奇异值分解，分解为奇异向量和奇异值。
奇异值分解公式： $A=UDV^{T}$
其中U和V都是正交矩阵，D是对角矩阵（不一定是方阵）
（3）特征分解和奇异值分解之间的联系：
左奇异向量： U的列向量称为左奇异向量
右奇异向量： V的列向量称为右奇异向量
A的左奇异向量是 $AA^{T}$ 的特征向量，A的右奇异向量是 $A^{T}A$ 的特征向量，A的非零奇异值是 $AA^{T}$ 的特征值的平方根，也是 $A^{T}A$ 的特征值的平方根。