线性代数矩阵运算矩阵

点击联系发帖人 时间：2018-05-23 12:02

线性代数高等教育答案

深度学习中的基础线性代数-初学者指南深度学习中的基础线性代数-初学者指南谈论我的经历百家号更多深度文章，请关注云计算频道：https://yq.aliyun.com/cloud作者介绍:Brendan Fortuner 是一名在西雅图的亚马逊的软件工程师，目前自己在人工智能方面进行研究。上过Jeremy Howard的深度学习课程后，我意识到我在线性代数方面的不足，而这大大影响我对类似反向传播这样的概念的理解。因此我决定在这个方面花点时间，以补全这方面的知识。本文是对线性代数的基本介绍，用于深度学习中会使用到的一些常见的线性代数操作。什么是线性代数？在深度学习的背景下，线性代数是一个数学工具，它提供了有助于同时操作数组的技术。它提供了像向量和矩阵（电子表格）这样的数据结构用来保存数字和规则，以便进行加，减，乘，除的运算。线性代数为什么有用？线性代数可以将复杂的问题简单化，让我们能够对问题进行高效的数学运算。以下是线性代数如何达到这些目标的一个例子。# Multiply two arrays初始化这两个数组后，用线性代数的方法会快3倍。如何在深度学习中使用线性代数？神经网络将权重存储在矩阵中。线性代数使矩阵运算变得更加快捷简便，尤其是在GPU上进行训练的时候。实际上，GPU是以向量和矩阵运算为基础的。比如，图像可以表示为像素数组。视频游戏使用庞大且不断发展的矩阵来产生令人炫目的游戏体验。GPU并不是处理单个像素，而是并行地处理整个像素矩阵。向量向量是1维数组。在几何中，向量将大小和方向的潜在变化存储到一个点。例如，向量[3，-2]表示向右移3个单位距离和向下移2个单位距离。而具有多个维度的向量称为矩阵。向量表示我们可以以不同的方式来表示向量。这里有几个常见的表示方式。几何中的向量向量通常表示从一个点出发的运动。它们将大小和方向的潜在变化存储到一个点。向量[-2,5]表示左移2个单位，向上5个单位。参考资料。向量可以应用于任何空间点。向量的方向就是向上5个单位和向左2个单位的斜线，它的大小等于斜线的长度。标量操作标量运算涉及向量和某个数字。我们可以通过对向量中的所有项进行加，减，乘，除操作来对其进行修改。Scalar addition元素操作在诸如加法，减法和除法的元素操作中，相应位置的值被重新组合以产生新的向量。向量A中的第一个值与向量B中的第一个值配对。第二个值与第二个值配对，依此类推。也就是说，这两个向量必须有着相同的尺寸，才能完成元素操作*。Vector additiony = np.array([1,2,3])*请参阅下面关于numpy 中的broadcasting方法详细信息。向量乘法向量乘法有两种类型：点积和Hadamard乘积。点积两个向量的点积是一个标量。向量和矩阵的点积（矩阵乘法）是深度学习中最重要的操作之一。y = np.array([1,2,3])Hadamard乘积Hadamard乘积是元乘法，它的输出是一个向量。向量场如果我们对一个点（x，y）应用一个加法或乘法的向量函数，向量场则表示了该点可能会移动多远。给定空间中某一个点，向量场显示了图中各个不同点可能的变化力度和方向。参考向量场是非常有趣的，因为它根据不同的起点可以向不同的方向移动。这是因为向量场背后的向量存储着2x或x这样的函数关系，而不是像-2和5这样的标量值。对于图上的每个点，我们将x值代入2x或x，并从起始点绘制箭头指向新的位置。向量场对于类似梯度下降(Gradient Descent)这类的机器学习技术的可视化是非常有用的。矩阵矩阵是数字或字符的矩形网格（如Excel表格），并具有加，减，乘等运算规则。矩阵维度我们用列和行来描述矩阵的维度。a = np.array([矩阵标量运算矩阵的标量运算与向量一样。简单地将标量应用于矩阵中的每个元素进行加，减，乘，除等操作。Matrix scalar addition矩阵单元操作为了对两个矩阵进行加，减或除法，它们必须具有相等的维度。*我们以元素组合的方式产生对应的值，得到新的矩阵。Numpy 的broadcasting方法*这是个不得不提的话题，因为它在实践中非常重要。在numpy中，元素操作的维度要求通过称为broadcasting的机制来扩展。如果每个矩阵（行与行，列与列）中的相应维度满足以下要求，则这两个矩阵是兼容的：1.
两个矩阵维度相等，或2.
一个矩阵的维度为1a = np.array([但在更高的维度上（3维或4维），事情会变得有点奇怪，但是现在我们不用担心。了解二维上的操作是个很好的开始。矩阵Hadamard乘积矩阵的Hadamard乘积是一个元素运算，就像向量一样。相应位置的值通过乘法运算来产生一个新的矩阵。a = np.array(只要矩阵维度符合broadcasting要求，就可以用Numpy对矩阵和向量进行Hadamard乘积运算。矩阵转置神经网络经常处理维度不符合要求的矩阵。而矩阵转置提供了一种方法来“旋转”其中一个矩阵，以使其操作符合乘法要求。转置矩阵有两个步骤：1.矩阵旋转90°2.反转每行元素的顺序（例如[a b c]变为[c b a]）例如，将矩阵M转置为T：矩阵乘法矩阵乘法规定了一组对矩阵进行乘法运算，以产生新矩阵的规则。规则并不是所有的矩阵都能进行乘法运算的。并且，对输出矩阵的维度也存在要求。参考资料1.
第一矩阵的列数必须等于第二个矩阵的行数2.
M×N矩阵和N×K矩阵的乘积是M×K矩阵。新矩阵取第一个矩阵的行和第二个矩阵的列。步骤矩阵乘法依赖于点积与行列元素的各种组合。以下图为例(取自Khan学院的线性代数课程)，矩阵 C中的每个元素都是矩阵A中行与矩阵B中列的点积。操作a1·b1表示我们取矩阵A中第一行（1,7）和矩阵B中第1列（3,5）的点积。这里是另一种方法：为什么矩阵乘法以这种方式工作？矩阵的乘法运算非常有用。但背后并没有太深奥的数学规律。之所以数学家发明了这种运算，完全是因为它简化了以前乏味的计算。这是一个人为的产物，但却非常有效。用一下几个例子自我测试一下矩阵乘法与NumpyNumpy使用函数np.dot（A，B）进行向量和矩阵乘法运算。它有一些其他有趣的功能和问题，所以我希望大家能在使用前阅读一下相关文档。更多英文教程Khan Academy Linear AlgebraDeep Learning Book Math SectionAndrew Ng’s Course NotesExplanation of Linear AlgebraExplanation of MatricesIntro To Linear AlgebraImmersive Math本文由北邮@爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。文章原标题《Linear algebra cheat sheet for deep learning》，作者：Brendan Fortuner，译者：friday012，审阅：李烽文章为简译，更为详细的内容，请查看原文本文由百家号作者上传并发布，百家号仅提供信息发布平台。文章仅代表作者个人观点，不代表百度立场。未经作者许可，不得转载。谈论我的经历百家号最近更新：简介:轻松了解科技前沿，看到未来世界。作者最新文章相关文章查看: 24289|回复: 2
机器学习教程一-不懂这些线性代数知识别说你是搞机器学习的
主题听众收听
问题导读：
1.机器学习需要掌握哪些线性代数知识？2.什么是矩阵？3.什么是奇异值分解？
thumb_8_default_big.png (168.57 KB, 下载次数: 12)
16:21 上传
数学是计算机技术的基础，线性代数是机器学习和深度学习的基础，了解数据知识最好的方法我觉得是理解概念，数学不只是上学时用来考试的，也是工作中必不可少的基础知识，实际上有很多有趣的数学门类在学校里学不到，有很多拓展类的数据能让我们发散思维，但掌握最基本的数学知识是前提，本文就以线性代数的各种词条来做一下预热，不懂的记得百度一下。
矩阵与方程组
还记得n*n方程组是怎么求解的吗？这个术语叫“回代法”，即转成三角形方程组再挨个代入求解一直不理解“代数”这个“代”是什么意思，现在终于理解了，代，英文是substitution，含义是代替，从初中到现在一直以为“代数”就是“代入”系数矩阵，英文名叫coefficient matrix，怪不得读开源代码里面经常遇到变量名叫做coe，原来是从这来的“导数”、“可导”还记得吗？不知道“导”是什么含义的有木有？英文derivative（含义是派生的、衍生的），看起来不是疏导的意思，而是音译过来的矩阵就是矩形的数字阵列，这再简单不过了n*n的矩阵叫方阵，傻子都知道了系数矩阵加一列右端项的矩阵叫增广矩阵，英文叫做augmented matrix，记作：(A|B)，科学家们随便想个东西起个名字就让我们抱着书本啃，我把A后面放两个B，叫做“增广矩阵二”行吗行阶梯型矩阵，这回有点难度了，它就是这样的：非零一行比一行少，第一个元素是1，数字靠右高斯消元法：把增广矩阵化为行阶梯型矩阵超定方程组：方程个数比未知量个数多行最简形：行阶梯形，每行第一个非零元是该列唯一的非零元高斯-若尔当消元法：将矩阵化为最简形的方法齐次方程组(homogeneous)：右端项全为零。齐次方程组总是有解的平凡解，就是零解（0,0,0,.....0），能不能别这么平凡的叫....非平凡解：零解以外的解x上面加水平箭头表示水平数组（行向量），不加则表示列向量，不一样的书里记法不太一样，姑且这么记吧对称矩阵的性质：转置等于他自己若A=(1)，则An=(2n-1)如果AB=BA=I，则称A是可逆的，或A是非奇异的(nonsingular)，B叫做A的逆元，记作A-1矩阵没有乘法逆元，那么叫做奇异的(singlular)(AB)-1=B-1A-1(AB)T=BTAT图的邻接矩阵（相连为1否则为0）是对称的初等矩阵：乘到方程两端得到行阶梯形，初等矩阵是非奇异的，即有逆如果B=多个初等矩阵连乘A，那么说A与B是行等价的如果A与I行等价，那么Ax=0只有平凡解0，而且A有逆矩阵A-1，也就是A是非奇异的，此时Ax=b有唯一解求逆的方法：对增广矩阵A|I做行列变换，把A变成I，则I变成了A-1对角矩阵：对角线以外的元素都是0如果A可以仅利用行运算化简为严格上三角形，则A有一LU分解，L是单位下三角矩阵，矩阵值就是变换中用的系数，这叫LU分解矩阵分块后满足矩阵乘法规则内积也叫标量积：行向量和列向量乘积，得出一个数外积：列向量和行向量乘积，得出一个矩阵外积展开：两个矩阵分别用向量方式表示，其乘积可以表示为外积展开
行列式：两条竖线间包括的阵列每个方形矩阵可以和他的行列式对应，行列式数值说明方阵是否是奇异的行列式算法：展开某一行，每个数乘以他的余子式并加和如果行列式非0，则方形矩阵为非奇异det(A)可表示为A的任何行或列的余子式展开三角形矩阵的行列式等于对角元素乘积交换矩阵两行，行列式变成原来的负数，即det(EA)=-det(A)矩阵某行乘以a，行列式变成原来的a倍，即det(EA)=adet(A)矩阵某行乘以a加到另一行，行列式不变如果某行为另一行的倍数，则矩阵行列式为零det(AB)=det(A)det(B)adj A：矩阵的伴随(adjoint)，将元素用余子式替换并转置求逆方法：A-1=(1/det(A)) adj A，推导：A(adj A)=det(A)I所以A(((1/det(A)) adj A) = I克拉黙法则：Ax=b的唯一解是xi=det(Ai)/det(A)，这是线性方程组用行列式求解的便利方法信息加密方法：找到行列式为正负1的整数矩阵A，A-1=+-adj A易求，乘A加密，乘A-1解密，A的构造方法：单位矩阵做初等变换向量积也是一个向量微积分中x看做行向量，线性代数中x看做列向量假设x和y是行向量，则x*y=(x2y3-y2x3)i-(x1y3-y1x3)j+(x1y2-y1x2)k，其中i,j,k是单位矩阵的行向量向量积可用于定义副法线方向xT(x*y)=yT(x*y)=0，说明向量积与向量夹角为0
向量空间：这个集合中满足加法和标量乘法运算，标量通常指实数子空间：向量空间S的子集本身也是个向量空间，这个子集叫做子空间除了{0}和向量空间本身外，其他子空间叫做真子空间，类似于真子集的概念，{0}叫做零子空间Ax=0的解空间N(A)称为A的零空间，也就是说Ax=0线性方程组的解空间构成一个向量空间向量空间V中多个向量的线性组合构成的集合成为这些向量的张成(span)，记作span(v1,v2,...,vn)span(e1,e2)为R3的一个子空间，从几何上表示为所有x1x2平面内3维空间的向量span(e1,e2,e3)=R3如果span(v1,v2,v3)=R3，那么说向量v1,v2,v3张成R3，{v1,v2,v3}是V的一个张集最小张集是说里面没有多余的向量最小张集的判断方法是：这些向量线性组合=0只有0解，这种情况也就是这些向量是线性无关的，如果有非零解那么就说是线性相关的在几何上看二位向量线性相关等价于平行，三维向量线性相关等价于在同一个平面内向量构成矩阵的行列式det(A)=0，则线性相关，否则线性无关线性无关向量唯一地线性组合来表示任意向量最小张集构成向量空间的基，{e1,e2...en}叫做标准基，基向量数目就是向量空间的维数转移矩阵：把坐标从一组基到另一组基的变换矩阵由A的行向量张成的R1*n子空间成为A的行空间，由A的列向量张成的Rm子空间成为A的列空间A的行空间的维数成为A的秩(rank)，求A的秩方法：把A化为行阶梯形，非零行个数就是秩矩阵的零空间的维数成为矩阵的零度，一般秩和零度之和等于矩阵的列数m*n矩阵行空间维数等于列空间的维数
线性变换：L(av1+bv2)=aL(v1)+bL(v2)线性算子：一个向量空间到其自身的线性变换典型线性算子距离：ax(伸长或压缩a倍)，x1e1（到x1轴的投影），(x1,-x2)T（关于x1轴作对称），(-x2,x1)T逆时针旋转90度判断是不是线性变换，就看看这种变换能不能转化成一个m*n矩阵线性变换L的核记为ker(L)，表示线性变换后的向量空间中的0向量子空间S的象记为L(S)，表示子空间S上向量做L变换的值整个向量空间的象L(V)成为L的值域ker(L)为V的一个子空间，L(S)为W的一个子空间，其中L是V到W的线性变换，S是V的子空间从以E为有序基的向量空间V到以F为有序基的向量空间W的线性变换的矩阵A叫做表示矩阵B为L相应于[u1,u2]的表示矩阵,A为L相应于[e1,e2]的表示矩阵，U为从[u1,u2]到[e1,e2]的转移矩阵，则B=U-1AU如果B=S-1AS，则称B相似于A如果A和B为同一线性算子L的表示矩阵，则A和B是相似的
两个向量的标量积为零，则称他们正交(orthogonal)R2或R3中的向量x和y之间的距离是：||x-y||xTy=||x|| ||y|| cos θ，即cos θ=xTy / (||x|| ||y||)设方向向量u=(1/||x||)x，v=(1/||y||)y，则cos θ=uTv，即夹角余弦等于单位向量的标量积柯西-施瓦茨不等式：|xTy| &= ||x||&&||y||，当且仅当有0向量或成倍数关系时等号成立标量投影：向量投影的长度，α=xTy/||y||向量投影：p=(xTy/||y||)y=(xTy/yTy)y对R3：||x*y|| = ||x|| ||y|| sinθ当x和y正交时, ||x+y||2 = ||x||2 + ||y||2，叫毕达哥拉斯定律c2=a2+b2叫毕达哥拉斯定理，其实就是勾股弦定理余弦应用于判断相似程度U为向量组成的矩阵，C=UTU对应每一行向量的标量积值，这个矩阵表示相关程度，即相关矩阵(correlation matrix)，值为正就是正相关，值为负就是负相关，值为0就是不相关协方差：x1和x2为两个集合相对平均值的偏差向量，协方差cov(X1,X2)=(x1Tx2)/(n-1)协方差矩阵S=1/(n-1) XTX，矩阵的对角线元素为三个成绩集合的方差，非对角线元素为协方差正交子空间：向量空间的两个子空间各取出一个向量都正交，则子空间正交。比如z轴子空间和xy平面子空间是正交的子空间Y的正交补：是这样一个集合，集合中每个向量都和Y正交正交补一定也是一个子空间A的列空间R(A)就是A的值域，即Rn中的x向量，列空间中的b=AxR(AT)的正交空间是零空间N(A)，也就是说A的列空间和A的零空间正交S为Rn的一个子空间，则S的维数+S正交空间的维数=nS为Rn的一个子空间，则S的正交空间的正交空间是他本身最小二乘(least squares)用来拟合平面上的点集最小二乘解为p=Ax最接近b的向量，向量p为b在R(A)上的投影最小二乘解x的残差r(x)一定属于R(A)的正交空间残差：r(x) = b - AxATAx = ATb叫做正规方程组，它有唯一解x = (ATA)-1ATb，这就是最小二乘解，投影向量p=A(ATA)-1ATb为R(A)中的元素插值多项式：不超过n次的多项式通过平面上n+1个点一个定义了内积的向量空间成为内积空间标量内积是Rn中的标准内积，加权求和也是一种内积内积表示为&x,y&，内积需满足：&x,x& &= 0; &x,y&=&y,x&; &ax+by,z&=a&x,z&+b&y,z&a=&u,v&/||v||为u到v的标量投影p=(&u,v&/&v,v&) v为u到v的向量投影柯西-施瓦茨不等式：|&u,v&| &= ||u|| ||v||范数(norm)：定义与向量相关联的实数||v||，满足||v||&=0; ||av||=|a| ||v||; ||v+w|| &= ||v|| + ||w||||v|| = (&v,v&)^-1为一个范数||x||=sigma|xi|为一个范数||x||=max|xi|为一个范数一般地，范数给出了一种方法来度量两个向量的距离v1,v2,...,vn如果相互之间&vi,vj&=0，则{v1,v2,...,vn}成为向量的正交集正交集中的向量都是线性无关的规范正交的向量集合是单位向量的正交集，规范正交集中&vi,vj&=1，里面的向量叫做规范正交基正交矩阵：列向量构成规范正交基矩阵Q是正交矩阵重要条件是QTQ=I，即Q-1=QT乘以一个正交矩阵，内积保持不变，即&x,y&=&Qx,Qy&乘以一个正交矩阵，仍保持向量长度，即||Qx||=||x||置换矩阵：将单位矩阵的各列重新排列如果A的列向量构成规范正交集，则最小二乘问题解为x=ATb非零子空间S中向量b到S的投影p=UUTb，其中U为S的一组规范正交基，其中UUT为到S上的投影矩阵使用不超过n次的多项式对连续函数进行逼近，可以用最小二乘逼近。某取值范围内线性函数的子空间，内积形式是取值范围内对两个函数乘积做积分通过将FN乘以向量z来计算离散傅里叶系数d的方法称为DFT算法(离散傅里叶变换)FFT(快速傅里叶变换)，利用矩阵分块，比离散傅里叶变换快8w多倍格拉姆-施密特正交化过程：u1=(1/||x1||)x1, u2=(1/||x2-p1||) (x2-p1), .....直接求出一组规范正交基格拉姆-施密特QR分解：m*n矩阵A如果秩为n，则A可以分解为QR，Q为列向量正交的矩阵，R为上三角矩阵，而且对角元素都为正，具体算法：
r11=||a1||，其中r11是对角矩阵第一列第一个元素，a1是A的列向量，rkk=||ak-p(k-1)||, rik=qiTak, a1=r11q1
Ax=b的最小二乘解为x=R-1QTb，其中QR为因式分解矩阵，解x可用回代法求解Rx=QTb得到使用多项式进行数据拟合以及逼近连续函数可通过选取逼近函数的一组正交基进行简化多项式序列p0(x),p1(x),...下标就是最高次数，如果&pi(x), pj(x)&=0，则{pn(x)}成为正交多项式序列，如果&pi,pj&=1，则叫规范正交多项式序列经典正交多项式：勒让德多项式、切比雪夫多项式、雅克比多项式、艾尔米特多项式、拉盖尔多项式勒让德多项式：在内积&p,q&=-1到1的积分p(x)q(x)dx意义下正交，(n+1)P(n+1)(x)=(2n+1)xPn(x)-nP(n-1)(x)切比雪夫多项式：在内积&p,q&=-1到1的积分p(x)q(x)(1-x2)-1/2dx意义下正交，T1(x)=xT0(x), T(n+1)(x)=2xTn(x)-T(n-1)(x)拉格朗日插值公式：P(x)=sigma f(xi) Li(x)拉格朗日函数Li(x)=(x-xj)连乘积 / (xi-xj)连乘积f(x)w(x)在a到b的积分可以简化为sigma Li(x)w(x)在a到b的积分 f(xi)
经过矩阵变换后向量保持不变，稳定后的向量叫做该过程的稳态向量存在非零的x使得Ax=λx，则称λ为特征值，x为属于λ的特征向量。特征值就是一个缩放因子，表示线性变换这个算子的自然频率子空间N(A-λI)称为对应特征值λ的特征空间det(A-λI)=0称为矩阵A的特征方程，求解特征方程可以算出λλ1λ2...λn=det(A)，即所有特征值的连乘积等于矩阵A的行列式的值sigma λi = sigma aii，所有特征值的和等于矩阵对角线元素之和A的对角线元素的和称为A的迹(trace)，记为tr(A)相似矩阵：B=S-1AS相似矩阵具有相同的特征多项式，和相同的特征值线性微分方程解法可以用特征值特征向量，形如Y'=AY, Y(0)=Y0的解是ae(λt)x，其中x是向量，这样的问题称为初值问题，如果有多个特征值，则解可以是多个ae(λt)x的线性组合任意高阶微分方程都可以转化成一阶微分方程，一阶微分方程可以用特征值特征向量求解矩阵A的不同特征值的特征向量线性无关如果存在X使得X-1AX=D，D是对角矩阵，则说A是可对角化的，称X将A对角化，X叫做对角化矩阵如果A有n个线性无关的特征向量，则A可对角化对角化矩阵X的列向量就是A的特征向量，D的对角元素就是A的特征值，X和D都不是唯一的，乘以个标量，或重新排列，都是一个新的An=XDnX-1，所以按A=XDX-1因式分解后，容易计算幂次如果A有少于n个线性无关的特征向量，则称A为退化的(defective)，退化矩阵不可对角化特征值和特征向量的几何理解：矩阵A有特征值2，特征空间由e3张成,看成几何重数(geometric multiplicity)是1矩阵B有特征值2，特征向量有两个x=(2,1,0)和e3，看成几何重数(geometric multiplicity)是2随机过程：一个试验序列，每一步输出都取决于概率马尔可夫过程：可能的输出集合或状态是有限的；下一步输出仅依赖前一步输出，概率相对于时间是常数如果1为转移矩阵A的住特征值，则马尔可夫链将收敛到稳态向量一个转移矩阵为A的马尔可夫过程，若A的某幂次的元素全为正的，则称其为正则的(regular)PageRank算法可以看成浏览网页是马尔可夫过程，求稳态向量就得到每个网页的pagerank值A的奇异值(singlular value)分解：把A分解为一个乘积UΣVT，其中U、V都是正交矩阵，Σ矩阵的对角线下所有元素为0，对角线元素逐个减小，对角线上的值叫奇异值A的秩等于非零奇异值的个数A的奇异值等于特征向量的开方若A=UΣVT，那么上面ATuj=σjvj，下面ATuj=0，其中vj叫做A的右奇异向量，uj叫做左奇异向量压缩形式的奇异值分解：U1=(u1,u2,...,ur), V1=(v1,v2,...,vr)，A=U1Σ1V1T奇异值分解解题过程：先算ATA的特征值，从而算出奇异值，同时算出特征向量，由特征向量得出正交矩阵V，求N(AT)的一组基并化成规范正交基，组成U，最终得出A=UΣVT数值秩是在有限位精度计算中的秩，不是准确的秩，一般假设一个很小的epsilon值，如果奇异值小于它则认为是0，这样来计算数值秩用来存储图像的矩阵做奇异值分解后去掉较小的奇异值得到更小秩的矩阵，实现压缩存储信息检索中去掉小奇异值得到的近似矩阵可以大大提高检索效率，减小误差二次型：每一个二次方程关联的向量函数f(x)=xTAx，即二次方程中ax2+2bxy+cy2部分ax2+2bxy+cy2+dx+ey+f=0图形是一个圆锥曲线，如果没解则称为虚圆锥曲线，如果仅有一个点、直线、两条直线，则称为退化的圆锥曲线，非退化的圆锥曲线为圆、椭圆、抛物线、双曲线一个关于x、y的二次方程可以写为xTAx+Bx+f=0，其中A为2*2对称，B为1*2矩阵，如果A是非奇异的，利用旋转和平移坐标轴，则可化简为λ1(x')2+λ2(y')2+f'=0，其中λ1和λ2为A的特征值。如果A是奇异的，且只有一个特征值为零，则化简为λ1(x')2+e'y'+f'=0或λ2(x')2+d'x'+f'=0二次型f(x)=xTAx对于所有x都是一个符号，则称为定的(definite)，若符号为正，则叫正定的(positive definite)，相对应叫负定的(negative definite)，如果符号有不同则叫不定的(indefinite)，如果可能=0，则叫半正定的(positive semidefinite),和半负定的(negative semidefinite)如果二次型正定则称A为正定的一阶偏导存在且为0的点称为驻点，驻点是极小值点还是极大值点还是鞍点取决于A是正定负定还是不定一个对称矩阵是正定的，当且仅当其所有特征值均为正的r阶前主子矩阵：将n-r行和列删去得到的矩阵如果A是一个对称正定矩阵，则A可分解为LDLT，其中L为下三角的，对角线上元素为1，D为对角矩阵，其对角元素均为正的如果A是一个对称正定矩阵，则A可分解为LLT，其中L为下三角的，其对角线元素均为正对称矩阵如下结论等价：A是正定的；前主子矩阵均为正定的；A可仅使用行运算化为上三角的，且主元全为正；A有一个楚列斯基分解LLT（其中L为下三角矩阵，其对角元素为正的）；A可以分解为一个乘积BTB，其中B为某非奇异矩阵非负矩阵：所有元素均大于等于0一个非负矩阵A，若可将下标集{1,2,...,n}划分为非空不交集合I1和I2，使得当i属于I1而j属于I2中时，aij=0，则成其为可约的，否则为不可约的
数值线性代数
舍入误差(round off error):四舍五入后的浮点数x'和原始数x之间的差绝对误差：x'-x相对误差：(x'-x)/x，通常用符号δ表示，|δ|可以用一个正常数ε限制，称为机器精度(machine epsilon)高斯消元法涉及最少的算术运算，因此被认为是最高效的计算方法求解Ax=b步骤：将A乘以n个初等矩阵得到上三角矩阵U，把初等矩阵求逆相乘得到L，那么A=LU，其中L为下三角矩阵，一旦A化简为三角形式，LU分解就确定了，那么解方程如下：LUx=b，令y=Ux，则Ly=b，所以可以通过求下三角方程求得y，y求得后再求解Ux=y，即可求得x矩阵的弗罗贝尼乌斯范数记作||·||F，求其所有元素平方和的平方根若A的奇异值分解A=UΣVT，则||A||2=σ1（最大的奇异值）矩阵范数可用于估计线性方程组对系数矩阵的微小变化的敏感性将x'代回原方程组观察b'=Ax'和b的接近成都来检验精度，r=b-b'=b-Ax'叫做残差(residual)，||r||/||b||叫做相对残差奇异值为一个矩阵接近奇异程度的度量，矩阵越接近奇异就越病态豪斯霍尔德变换(householder transformation)矩阵H可由向量v和标量β求得，因此存储v和β更省空间主特征值是指最大的特征值求主特征值的方法：幂法。求特征值方法：QR算法。将A分解为乘积Q1R1，其中Q1为正交的，R1为上三角的，A2=Q1TAQ1=R1Q1，将A2分解为Q2R2，定义A3=Q2TA2Q2=R2Q2，继续这样，得到相似矩阵序列Ak=QkRk，最终将收敛到类似上三角矩阵，对角上是1*1或2*2的对角块，对角块的特征值就是A的特征值
最后的总结
奇异值分解正是对这种线性变换的一个析构，A=，和是两组正交单位向量，是对角阵，表示奇异值，它表示A矩阵的作用是将一个向量从这组正交基向量的空间旋转到这组正交基向量空间，并对每个方向进行了一定的缩放，缩放因子就是各个奇异值。如果维度比大，则表示还进行了投影。可以说奇异值分解描述了一个矩阵完整的功能/特性。而特征值分解其实只描述了矩阵的部分功能。特征值，特征向量由Ax=x得到，它表示如果一个向量v处于A的特征向量方向，那么Av对v的线性变换作用只是一个缩放。也就是说，求特征向量和特征值的过程，我们找到了这样一些方向，在这些方向上矩阵A对向量的旋转、缩放变换（由于特征值只针对方阵，所以没有投影变换）在一定程度上抵消了，变成了存粹的缩放（这个缩放比例和奇异值分解中的缩放比例可能不一样）。概括一下，特征值分解只告诉我们在特征向量的那个方向上，矩阵的线性变化作用相当于是简单的缩放，其他方向上则不清楚，所以我说它只表示矩阵的部分特性。而奇异值分解则将原先隐含在矩阵中的旋转、缩放、投影三种功能清楚地解析出来，表示出来了，它是对矩阵的一个完整特征剖析。
线性代数(原书第9版)，史蒂文 J.利昂 (Steven J.Leon)(作者)
机器学习教程一-不懂这些线性代数知识别说你是搞机器学习的
机器学习教程二-安装octave绘制3D函数图像
机器学习教程三-用scikit-learn求解一元线性回归问题
机器学习教程四-用scikit-learn求解多元线性回归问题
机器学习教程五-用matplotlib绘制精美的图表
机器学习教程六-用scikit-learn求解多项式回归问题
机器学习教程七-用随机梯度下降法(SGD)做线性拟合
机器学习教程八-用scikit-learn做特征提取
机器学习教程九-二元分类效果的评估方法
机器学习教程十-用scikit-learn的网格搜索快速找到最优模型参数
机器学习教程十一-用scikit-learn做聚类分析大数据
机器学习教程十二-神经网络模型的原理大数据
主题听众收听
中级会员, 积分 465, 距离下一级还需 535 积分
中级会员, 积分 465, 距离下一级还需 535 积分
我的高等代数是白学了
主题听众收听
高级会员, 积分 1101, 距离下一级还需 3899 积分
高级会员, 积分 1101, 距离下一级还需 3899 积分
真的学习中！
站长推荐 /4
会员注册不成功的原因
新手获取积分方法
hadoop3.0学习：零基础安装部署hadoop集群
about云课程：大数据日志实时分析
Powered by}

我爱游戏网