1、重要名词

(1)标量:scalar
(2)向量:vector
(3)矩阵:matrix
(4)张量:tensor
(5)转置:transpose
(6)主对角线:main diagonal
(7)广播:broadcasting
(8)矩阵乘积:matrix product
(9)矩阵对应元素乘积:element-wise product
(10)向量点积:dot product
(11)矩阵逆:matrix inversion
(12)单位矩阵:identity matrix
(13)生成子空间:span
(14)值域:range
(15)线性相关:linear dependence
(16)线性无关:linearly independent
(17)方阵:square
(18)奇异的:singular
(19)范数:norm;欧几里得范数:Euclidean norm;Frobenius norm
(20)对角矩阵:diagonal matrix
(21)对称矩阵:symmetric matrix
(22)正交:orthogonal;标准正交:orthonormal
(23)正交矩阵:orthonormal matrix
(24)特征分解:eigen decomposition
(25)特征向量:eigen vector
(26)特征值:eigen value
(27)正定:positive definite
(28)半正定:positive semidefinite
(29)奇异值分解:singular value decomposition;奇异值:singular value
(30)迹:trace
(31)主成分分析:principle components analysis

2、线性方程组(矩阵)的解

(1)线性方程组:A x = b => A−1Ax=A−1b A^{-1}Ax= A^{-1} bA1Ax=A1bIx=A−1bIx=A^{-1}bIx=A1bx=A−1bx=A^{-1}bx=A1b
能否找到一个逆矩阵A−1A^{-1}A1,是线性方程组有没有解的关键,问题也就从求线性方程组的解转化为求逆矩阵A−1A^{-1}A1
(2)matrix inversion 是否存在对线性方程组的解有何影响?
如果matrix inversion存在,那么线性方程组恰好存在一个解。但对于某些b的值,有可能不存在解,或存在无穷多个解(A−1A^{-1}A1不存在),不存在多于1个解少于无穷多个解的情况。因为如果xxxyyy是某方程组的解,则z=ax+(1−a)yz=ax+(1-a)yz=ax+(1a)y一定是方程组的解。
(3)生成子空间与线性方程组的解之间的关系?
将A的列向量看作从原点出发的不同方向,确定有多少种方法可以到达向量b。向量x中的每个元素表示我们应该沿着这个方向走多远,这种操作称为线性组合。原始向量线性组合后所能抵达的点的集合称为生成子空间。确定Ax=bAx=bAx=b是否有解,相当于确定向量b是否在A列向量的生成子空间中(A的值域)。
(4)线性方程组对任意向量b∈Rmb∈R^{m}bRm都存在解的充要条件?
A的值域构成整个RmR^{m}Rm,即A至少有m列,即n≥m(A是m行n列的矩阵)。因为A中的部分列向量可能是线性相关的,线性相关会降低值域维度,所以不仅要使n≥m,还要保证A的列向量至少包含m个线性无关的向量。
(5)如何确保线性方程组只有一个解?
因为A中要保证n≥m,且保证有m个线性无关的向量。如果n=m,则在满足上述条件的情况下,能够保证只存在1组线性无关的向量;如果n>m,有可能存在多组线性无关的向量。所以吗,若想方程组有唯一解,必须要求A是方阵,且m=n。所有列向量都是线性无关的方程称为奇异的。

3、范数

定义:范数是用来衡量一个向量到原点的大小。
欧几里得范数:二范数也称为欧几里得范数,在机器学习中出现频繁。
平方二范数:也可以用来衡量向量大小,主要特点1)可以直接通过点积xTxx^{T}xxTx来计算;2)对x中每个元素的倒数只与元素本身有关,而L2L^{2}L2范数中每个元素的倒数都与整个向量有关;3)在原点附近增长缓慢,难以区分零元素和很小的元素。这时候常用一范数来代替。一范数也常作为非零元素数目计数的替代函数。
Frobenius norm:衡量矩阵大小。类似于二范数。

4、特殊类型的矩阵和向量

(1)对角矩阵:主对角线上包含非零元素,不一定是方阵。对角矩阵最大的优点是1)乘法计算很高效,diag(v)xdiag(v)xdiag(v)x是对x中的每个元素放大vivivi倍;2)对角方阵的逆矩阵求解很高效,当且仅当对角元素都是非零值;3)非方阵的对角矩阵没有逆矩阵,但仍然可以高效的计算它们的乘法(广播机制),瘦长的矩阵填0,矮款的矩阵舍弃。
(2)对称矩阵:转置和本身相等。标准正交:这些向量不但相互正交,而且二范数都为1.
(3)正交矩阵:行向量和列向量是分别标准正交的方阵。正交矩阵的优势在于求逆计算代价小,正交矩阵的逆矩阵与转置相等。

5、矩阵分解

(1)特征分解:将矩阵分解为一组特征向量和特征值Av=λvAv=\lambda vAv=λv
因为如果v是矩阵A的特征向量,那么将v缩放s倍,sv依然是A的特征向量,且其对应的特征值相同,所以一般研究的都是单位特征向量。我们在深度学习相关算法的研究中,只考虑可以分解的实对称矩阵,可以将其分解为:
A=Qdiag(λ)QT)A=Qdiag(\lambda )Q^{T})A=Qdiag(λ)QT)
其中Q是由A的特征向量组成的正交矩阵。由于Q是正交矩阵,所以可以将A看做沿着vi方向延展λi\lambda iλi倍的空间。
虽然任意一个实对称矩阵都可以进行特征分解,但特征分解可能并不唯一。如果多个特征向量具有相同的特征值,那么这些特征向量组成的生成子空间中,任意一组正交的向量都是该特征值对应的特征向量,可以构成多个不同的Q。所以我们习惯将diag(λ\lambdaλ)中的元素降序排列,在所有的特征值都互不相等的时候,Q就是唯一的了。同时,也可以根据特征值中是否含有0,判断矩阵是否是奇异的。
半正定矩阵:所有特征值都是非负数的矩阵。其主要优势是,能够保证所有的向量x,xTAx≥0x^{T}Ax≥0xTAx0.
(2)奇异值分解:每个实数矩阵都有一个奇异值分解,但不一定有特征分解。例如,非方阵的矩阵没有特征分解,这时只能使用奇异值分解,分解为奇异向量和奇异值。
奇异值分解公式:A=UDVTA=UDV^{T}A=UDVT
其中U和V都是正交矩阵,D是对角矩阵(不一定是方阵)
(3)特征分解和奇异值分解之间的联系:
左奇异向量: U的列向量称为左奇异向量
右奇异向量: V的列向量称为右奇异向量
A的左奇异向量是AATAA^{T}AAT的特征向量,A的右奇异向量是ATAA^{T}AATA的特征向量,A的非零奇异值是AATAA^{T}AAT的特征值的平方根,也是ATAA^{T}AATA的特征值的平方根。

5、迹运算

定义:迹运算返回的是矩阵对角元素的和
应用:(1)迹运算可以方便计算矩阵Frobenius 范数的值。(公式就不写了,我也记不住。)
(2)转置不变性:一个矩阵及其转置的迹运算的值相等。
(3)交换律:Tr(ABC)=Tr(CBA)=Tr(BCA)Tr(ABC)=Tr(CBA)=Tr(BCA)Tr(ABC)=Tr(CBA)=Tr(BCA)

6、行列式

行列式是将一个方阵A映射到实数的函数
行列式等于矩阵特征值的乘积
行列式也可以用来衡量矩阵乘法之后在新的做表空间中的缩放情况。如果矩阵相乘后行列式为0,那么空间至少在某一维度完全收缩了,失去了所有的体积;如果行列式为1,那么这个转换保持空间体积不变。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐