Fisher贝叶斯判别公式中的这个公式是如何展开的

点击联系发帖人 时间：2017-07-24 02:57

费舍尔线性判别公式

出自 MBA智库百科()
(重定向自)
　　费希尔理想公式亦称费希尔理想价格指数,是指美国著名()于1927年在其名著中提出的主张：取和的几何平均数的一种公式。
　　费希尔理想公式为：
　　费希尔认为，这个公式既能满足时间颠倒测验，又能适合因子颠倒测验，故他认为最为理想。但这个公式仍不适合循环测验。编制理想指数所需要资料繁多，在实际工作中很少应用。目前在世界上，只有少数几个国家在编制时，用到这个公式。
　　1.。亦称时间互换测验。指计算期对基期的和基朗对计算期的指数的乘积应等于1。以公式表示:
　　上式：I0代表计算期对基期的指数，称为前进指数I1代表基期对计算期的指数，称为后退指数。
　　2.。亦称因子互换测验。指物价指数和相应的物量指数的乘积应等于其。以公式表示：
　　式中：Ip代表物价指数，Iq代表物量指数，Iv代表价值指数。
　　3.。指第一个时期对基期的指数和第二个时期对第一个时期指数的乘积，应等于第二个时期对第一个时期对基期的指数。以公式表示：
　　式中：I0为第一个时期对基期的指数；I3为第二个时期对第一个时期的指数；I2为第二个时期对基期的指数。
郑家亨.统计大辞典[M].ISBN:7-/C8-61.中国统计出版社,1995
本条目对我有帮助4
&&如果您认为本条目还有待完善，需要补充新内容或修改错误内容，请。
本条目由以下用户参与贡献
(window.slotbydup=window.slotbydup || []).push({
id: '224685',
container: s,
size: '728,90',
display: 'inlay-fix'
评论(共0条)提示:评论内容为网友针对条目"费希尔理想公式"展开的讨论，与本站观点立场无关。
发表评论请文明上网，理性发言并遵守有关规定。
以上内容根据网友推荐自动排序生成Fisher判别分析
首先我们得好清楚什么是Fisher算法？选取任何一本模式识别与智能计算的书都有这方面的讲解。首先得知道Fisher线性判别函数，在处理数据的时候，我们经常遇到高维数据，这个时...
Fisher线性判别（Fisher Linear Discrimination，FLD）方法是基于样本类别进行整体特征提取的有效方法。它在使用PCA方法进行降维的基础上考虑到训练样本的类间信息。FLD...
从贝叶斯公式出发，得到了线性判别分析的公式，这里从另外一个角度来看线性判别分析，也就是常说的Fisher判别式。其实Fisher判别式就是线性判别分析（LDA），只是在讨论Fisher判别式的时候，更...
在前文《贝叶斯决策理论》中已经提到，很多情况下，准确地估计概率密度模型并非易事，在特征空间维数较高和样本数量较少的情况下尤为如此。
实际上，模式识别的目的是在特征空间中设法找到两类（或多类）的分类面...
Fisher判别法是1936年提出来的，该方法的主要思想是通过将多维数据投影到某个方向上，投影的原则是将总体与总体之间尽可能的放开，然后再选择合适的判别规则，将新的样品进行分类判别。...
0.引言说明
这篇文章实际上是楼主上的模式识别课程的课堂报告，楼主偷懒把东西直接贴出来了。选择fisher判别法的原因主要是想学习一下这个方法，这个方法属于线性判别法，操作起来和lda判别法近乎没啥...
本实验的目的是学习和掌握PCA主分量分析方法和Fisher线性判别方法。首先了解PCA主分量分析方法的基本概念，理解利用PCA 分析可以对数据集合在特征空间进行平移和旋转。实验的第二部分是学习和掌握F...
参考资料：
周志华老师的《机器学习》
http://wiki.mbalib.com/wiki/%E5%88%A4%E5%88%AB%E5%88%86%E6%9E%90
判别分析是一种经典的现行分析方法...
他的最新文章
他的热门文章
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)　　摘要：判别分析是多元统计分析中最常用的方法之一。该文结合一个语言学实验的例子对SPSS判别分析的操作步骤和输出结果" />
SPSS中判别分析的使用
　　摘要：判别分析是多元统计分析中最常用的方法之一。该文结合一个语言学实验的例子对SPSS判别分析的操作步骤和输出结果作了详细的介绍，并对判别分析的不同方法在SPSS中的使用进行了区分。　　关键词： SPSS 判别分析语言学　　1.引言　　判别分析是多元统计分析中判别样本所属类型的一种常用方法。它的研究对象是训练样本，也就是说原始数据的具体分类是事先已知的，然后根据原始数据求出判别函数将待判样本的数据代入判别函数中判断其类型。[1]常用的判别分析方法主要有：距离判别法、Fisher判别法和Bayes判别法。然而，在SPSS操作中只能实现Bayes判别法与Fisher判别法两种，并且这两种方法的操作是合在一起进行的，所以使用起来需要特别注意。[2]下文将结合一个语言学实验的例子对SPSS判别分析的步骤和输出结果作详细解释和说明。　　2.语言学实验　　2.1实验背景　　Fletcher和Peters（1984）研究发现，可以用语法和词汇两个维度来刻画语言受损儿童在语言表达方面的特征。被试分为两组，一组是20个正常儿童（LN），另一组是用标准化测试尺度在年龄和智力活动方面跟LN组相比而诊断为语言受损的9个儿童（LI）。在标准条件下收集他们的自发的语言数据（LN组的年龄均值为60.86个月，LI组的年龄均值为62.33个月）。围绕65个语法与词汇范畴――大部分引自Crystal、Fletcher和Garman（1976），每组儿童提供的样本都包括200个话语的得分。其中一个语法变量是根据无标记动词形式――既无后缀又无助动词修饰的实义动词词干――的个数来评分的。另外一个词汇范畴是动词词型，即一个儿童在样本中使用不同的实义动词的个数。[3] 　　2.2数据录入　　本文使用的SPSS为20.0版本。首先建立一个数据文件linguistics.sav，将Fletcher和Peters所提供的每个被试的数据录入进去。数据文件的变量视图和数据视图分别如图1和图2所示。在变量视图中，定义变量Y（分类）的值标签，-1为语言受损，1为正常。在数据视图中，共29行数据，分别为29个被试儿童在x1和x2这两个变量上的得分及所属类别。　　图1 变量视图　　2.3判别分析步骤　　①单击“分析”→“分类”→“判别分析”，从对话框左侧的变量列表中选中进行判别分析的变量“无标记动词形式[x1]”和“动词词型[x2]”进入“自变量”框，作为判别分析的基础数据变量。从对话框左侧的变量列表选中“分类[Y]”进入“分组变量”框，并单击“定义范围”按钮，在“定义范围”对话框中，定义判别原始数据的类别数，在最小值处输入-1，在最大值处输入1。分析方法按默认的“一起输入自变量”。　　②打开“统计量”对话框，在“描述性”中，选择“单变量ANOVA”和“Box’sM”。在“函数系数”中选择“Fisher”（注：此为Bayes选项）和“未标准化”（注：此为Fisher选项）。　　此外，“均值”可以输出各类中各自变量的均值和标准差。“矩阵”选项组可选择自变量的系数矩阵。　　③打开“分类”对话框，在“先验概率”（注：此为Bayes选项）中，按默认选择“所有组相等”。在“使用协方差矩阵”中，按默认选择“在组内”。在“输出”（注：此为Bayes选项）中，选择“摘要表”和“不考虑该个案时的分类”。在“图”（注：此为Fisher选项）中，选择“合并组”、“分组”和“区域图”。　　此外，“个案结果”可以输出每个观测量包括判别分数实际类预测类（根据判别函数求得的分类结果）和后验概率等。　　④打开“保存”对话框，选择“预测组成员”、“判别得分”和“组成员概率”。　　全部选择完成后，单击“判别分析”对话框中的“确认”按钮。　　2.4判别分析结果　　①适用条件检验。在“统计量”对话框中，选择“单变量ANOVA”和“Box’sM”，可分别得到下面的表1和表2。表1中的Sig值表示这两个变量均值在各组间都是有差异的，因此这两个变量对类间的判别都是有作用的。表2中的Sig值表示组间协方差齐这一假设是被拒绝的。不过，协方差齐的这一要求在实际应用中往往是被忽视的。[4] 　　②基本输出结果。表3给出了判别函数的特征根以及判别指数。本实验中只有一个判别函数，所以只有一个特征值。表4中的Sig值表示差异达到显著水平，即这个投影函数能将两组儿童区分开。从表5中，可以看出判别函数主要与“动词词型”这个自变量相关。由于本实验只有一个判别函数和两个自变量，那么可以推测在区分正常儿童和语言受损儿童上，“动词词型”这个变量在判别分析中起了主要作用。表6是各组的判别函数的重心。注意此处使用的是非标准化典型判别式函数。　　③三种判别式。判别分析默认会给出表7的判别函数，其中的判别函数使用的是标化变量。如果在“统计量”对话框中，选择“未标准化”，可以得到表8的判别函数；选择“Fisher”，可以得到表9的判别函数。注意此处“Fisher”复选框对应的实际上是Bayes判别。　　标准化典型判别式为：　　F（X）=-0.684×Z无标记动词形式+0.785×Z动词词型（变量前加Z表示标化后的数值）　　未标准化典型判别式为：　　F（X）=-2.046?C0.060×无标记动词形式+0.190×动词词型　　Bayes判别式为：　　语言受损=-13.760+0.285×无标记动词形式+0.897×动词词型　　正常=-17.050+0.167×无标记动词形式+1.271×动词词型　　④图表。由于本实验只有一个判别函数，所以没有产生区域图和合并图，只有如图3和图4所示的分组直方图，从直方图中可以大致看出各组中样本的分布情况。
　　图3 分组直方图（语言受损）　　图4 分组直方图（正常）　　⑤分类结果。在“分类”对话框中，选择了“摘要表”可以得到表10中的上半部分，是采用回代法得到的判别信息，由表可见有96.6%的正确率，其中语言受损有1例错判。在“分类”对话框中，选择了“不考虑该个案时的分类”可以得到表10中的下半部分，是采用交叉验证法得到的判别信息，本实验中正确率为86.2%，其中语言受损有1例错判，正常有3例错判。　　⑥保存结果。运行判别分析后回到数据文件的数据视图，如图5所示，生成了新的变量。在“保存”对话框，选择“预测组成员”，产生“Dis_1”变量，显示的是各样本按Bayes判别所属的类别；选择“判别得分”得到“Dis1_1”列，是样本在Fisher投影函数下投影的坐标；选择“组成员概率”得到“Dis1_2”和“Disc2_2”，为样本分别属于第1类与第2类的后验概率大小。根据表10所示，语言受损有1例错判。在图5中可以看出，语言受损儿童中错判的是第3例，因为其第2类的后验概率0.90727大于第1类的后验概率0.09273，因此判别为第2类。此外，“Dis1_1”的值还可以结合表6的类中心坐标使用距离判别法进行类别判别。　　3.结语　　综上所述，SPSS只能完成Bayes判别与Fisher判别，无法直接完成距离判别。SPSS判别分析是以Bayes判别为主，主要菜单与选项都是针对Bayes判别分析设置，并且最终保存的判别结果也是以Bayes判别为依据；Fisher判别操作仅给出投影表达式、各类投影中心坐标及投影分界图，最终判别结果需要自己根据各类投影中心坐标或投影分界图去做判别。[5]此外，由于判别分析有着比较严格的前提条件，比如自变量和因变量间的关系要符合线性假定等等。当自变量和因变量间的联系为比较复杂的非线性函数，甚至无法给出显式表达时，这些基本的判别法就不适用了。而SPSS在“分析”菜单中，还提供了“树”和“神经网络”，这些方法均为非参数方法，因此没有太多的适用条件限制，应用范围更广，也更适合对各种复杂联系进行分析判断。　　参考文献：　　[1]任志娟.SPSS中判别分析方法的正确使用[J].统计与决策，2006（2）：157. 　　[2]陈希镇，曹慧珍.判别分析和SPSS的使用[J].科学技术与工程，）：. 　　[3][英]Woods，A.等著.语言研究中的统计方法[M].陈小荷等译.北京：北京语言文化大学出版社，0. 　　[4]张文彤.SPSS统计分析高级教程[M].北京：高等教育出版社，7. 　　[5]陈敏琼.利用SPSS进行判别分析的几个问题的说明[J].现代计算机（专业版），2015（2）：34-39.
【相关论文推荐】思想：多维 --& Fisher变换 --& 利于分类的一维
给定n维训练模式 x1,x2,...,xn,其中有N1和N2个模式分属w1和w2类（N1+N2=N)，分别记为{xj_(1)}和{xj_(2)}
我们希望通过Fisher变换之后，同一类的模式向量&距离&更近，而类之间的&距离&更远，这样达到更容易区分的目的。
同一类的模式向量&距离&：类内离散度矩阵（类内离差阵）
类之间的&距离&：类间离散度矩阵（类间离差阵）
3.变换前的类内离散度矩阵和类间离散度矩阵
变换前的类内离散矩阵Swi=sum_j（xj_(i)-mi)（xj_(i)-mi)'
&&&&&&&&&&&&
其中mi=1/Ni sum (xj_(i))是各类的模式均值矢量。所以类内离散度矩阵实际上就是各模式矢量在各维度的协方差矩阵。
总的类内离散度矩阵为各个类内离散度矩阵相加，如果只考虑两个类的话：Sw=Sw1+Sw2;
变换前的类间离散度矩阵：SB=(m1-m2)(m1-m2)'
4.Fisher变换
yj_(i)=u'*xj_(i)
其中u就是变换矩阵，它的行数和x相同，而列数是新的维数
5.变换后的类内离散度矩阵和类间离散度矩阵
类内：Swi~=sum (yj_(i)-mi~)(yj_(i)-mi~)'
&&&&&&&&&&=sum(u'*xj_(i)-u'*mi)(u'*xj_(i)-u'*mi)'
&&&&&&&&&&=u'*Swi*u
总类内: Sw~=u'*Sw*u
类间： &SB~=u'*SB*u
6.Fisher判别函数
JF(u)=SB~/Sw~=(u'*SB*u)/(u'*Sw*u)
这个值越大，说明变换后越容易区分（求导后应该是一个矢量，如何有大小之分）
让其对u求导（需要利用二次型对其矢量求导的公式）：
dJF/du=(2*(u'*Sw*u)*SB*u-2*(u'*SB*u)*Sw*u)/(u'*Sw*u)^2=NON(表示空）
令 lamda=u'*Sb*u/u'*Sw*u,则 (lamda是标量。为什么？）
SB*u=lamda*Sw*u
当N较大时，Sw通常是非奇异的：（|Sw|~=0,即 Sw是可逆的）
Sw^-1*SB*u=lamda*u
于是演变为求特征值和特征向量的情况
上式展开：
Sw^-1*（m1-m2)*(m1-m2)'*u=lamda*u
考虑到(m1-m2)'*u=a(a是标量），而且我们只关心u的方向，而不关心大小：
u=Sw^-1*(m1-m2)
阅读(...) 评论()多元统计之判别分析（下）a year ago# 数据准备，使用R内置数据集iris
# 通过抽样建立训练样本(70%)和测试样本(30%)
& index &- sample(2,size = nrow(iris),replace = TRUE,prob = c(0.7,0.3))
& train_data &- iris[index == 1,]
& test_data &- iris[index == 2,]
# 载入所用包
& library(klaR)
# 构建贝叶斯模型
& Bayes_model &- NaiveBayes(Species ~ ., data = train_data)
# 进行预测
& Bayes_model_pre &- predict(Bayes_model, newdata = test_data[,1:4])
# 生成实际与预判交叉表
& table(test_data$Species,Bayes_model_pre$class)
setosa versicolor virginica
versicolor
从上表生成的交叉表中，我们可以看到在该模型中错判了3个。# 生成预判精度
& sum(diag(table(test_data$Species,Bayes_model_pre$class)))
+ / sum(table(test_data$Species,Bayes_model_pre$class))
[1] 0.9361702
三、Fisher判别基本理论Fisher判别法的基本思想是“投影”，将组维的数据向低维空间投影，使其投影的组与组之间的方差尽可能的大，组内的方差尽可能的小。因此，Fisher判别法的重点就是选择适当的“投影轴”。判别函数为，接下来我们以两类总体举例。首先我们将样本点投影到一维空间，旋转坐标轴至总体单位尽可能分开的方向，此时分类变量被简化为一个，判别函数；如果划分的效果不理想，可以考虑投影到二维空间（）,以此类推。上图为二维空间的Fisher判别，从图中可以看到，无论我们把总体和投影到还是轴，都不能很好的把两类总体区分出来。为此，我们需要寻找一条合适的投影线，使得两类总体向该线投影后的区分程度达到最大，线性判别函数即为该投影线的表达形式（这里我们仅介绍Fisher判别的基本原理，不涉及参数的具体推导和求解，这些都可用R程序求得）。四、Fisher判别的R实现在R中，我们使用MASS包中的lda()函数实现Fisher判别分析，函数调用公式如下：& lda(formula, data, ..., subset, na.action)
# formula:指定参与模型计算的变量，以公式形式给出，类似于y=x1+x2+x3
# na.action:指定缺失值的处理方法，默认情况下，缺失值的存在使算法无法运行，当设置为“na.omit”时则会删除含有缺失值的样本
# 数据准备，使用R内置数据集iris
# 通过抽样建立训练样本(70%)和测试样本(30%)
& index &- sample(2,size = nrow(iris),replace = TRUE, prob = c(0.7,0.3))
& train_data &- iris[index == 1,]
& test_data &- iris[index == 2,]
# 载入所用包
& library(MASS)
# 构建Fisher判别模型
& fisher_model &- lda(Species~., data = train_data)
# 进行预测
& fisher_model_pre &- predict(fisher_model, newdata = test_data[,1:4])
# 生成实际与预判交叉表
& table(test_data$Species,fisher_model_pre$class)
setosa versicolor virginica
versicolor
# 生成预判精度
& sum(diag(table(test_data$Species,fisher_model_pre$class)))
+ / sum(table(test_data$Species,fisher_model_pre$class))
[1] 0.9811321
五、Fisher判别进阶——非线性判别在判别分析的实际应用中，对复杂的数据使用线性判别可能无法得到理想的效果。为此，我们需要使用类似于二次判别函数的非线性分类方法，将样本点投影到若干种二次曲面中，实现理想的判别效果。在R中，非线性判别使用MASS包的qda()函数来实现，调用公式为：& qda(formula, data, ..., subset, na.action)
# 使用lda()函数同样的数据集
& fisher_model_2 &- qda(Species~., data = train_data)
& fisher_model_pre_2 &- predict(fisher_model_2, newdata = test_data[,1:4])
& table(test_data$Species,fisher_model_pre_2$class)
setosa versicolor virginica
versicolor
& sum(diag(table(test_data$Species,fisher_model_pre_2$class)))
+ / sum(table(test_data$Species,fisher_model_pre_2$class))
[1] 0.9811321
结果我们发现，线性判别法和非线性的二次判别法得到的结果一致，这说明线性判别法已经能够很好的将数据的类别划分出来了，且准确率达到98%。不过我们需要认识到，这一结果主要是由于我们所用的数据集较为简单直观，对于更为复杂的高维数据，非线性判别要比线性判别在准确度上有着较大的提升。附参考书目及学习文档：赞赏还没有人赞赏，快来当第一个赞赏的人吧！27收藏分享举报文章被以下专栏收录术业有专攻{&debug&:false,&apiRoot&:&&,&paySDK&:&https:\u002F\u002Fpay.zhihu.com\u002Fapi\u002Fjs&,&wechatConfigAPI&:&\u002Fapi\u002Fwechat\u002Fjssdkconfig&,&name&:&production&,&instance&:&column&,&tokens&:{&X-XSRF-TOKEN&:null,&X-UDID&:null,&Authorization&:&oauth c3cef7c66aa9e6a1e3160e20&}}{&database&:{&Post&:{&&:{&isPending&:false,&contributes&:[{&sourceColumn&:{&lastUpdated&:,&description&:&&,&permission&:&COLUMN_PUBLIC&,&memberId&:1406742,&contributePermission&:&COLUMN_PUBLIC&,&translatedCommentPermission&:&all&,&canManage&:true,&intro&:&术业有专攻&,&urlToken&:&The-Art-of-Data&,&id&:21507,&imagePath&:&v2-364e941964.jpg&,&slug&:&The-Art-of-Data&,&applyReason&:&0&,&name&:&数据科学笔记本&,&title&:&数据科学笔记本&,&url&:&https:\u002F\u002Fzhuanlan.zhihu.com\u002FThe-Art-of-Data&,&commentPermission&:&COLUMN_ALL_CAN_COMMENT&,&canPost&:true,&created&:,&state&:&COLUMN_NORMAL&,&followers&:3431,&avatar&:{&id&:&v2-364e941964&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&activateAuthorRequested&:false,&following&:false,&imageUrl&:&https:\u002F\u002Fpic4.zhimg.com\u002Fv2-364e941964_l.jpg&,&articlesCount&:73},&state&:&accepted&,&targetPost&:{&titleImage&:&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-b985faec82ba76406dec7db_r.jpg&,&lastUpdated&:,&imagePath&:&v2-b985faec82ba76406dec7db.jpg&,&permission&:&ARTICLE_PUBLIC&,&topics&:[,3074],&summary&:&接上文，继续学习贝叶斯判别与Fisher判别。一、贝叶斯判别基本理论贝叶斯判别法的前提是假定我们已经对所要分析的数据有所了解（比如数据服从什么分别，各个类别的先验概率等），根据各个类别的先验概率求得新样本属于某类的后验概率。该算法应用到经典的…&,&copyPermission&:&ARTICLE_COPYABLE&,&translatedCommentPermission&:&all&,&likes&:0,&origAuthorId&:0,&publishedTime&:&T22:23:04+08:00&,&sourceUrl&:&&,&urlToken&:,&id&:1772518,&withContent&:false,&slug&:,&bigTitleImage&:true,&title&:&Learn R
多元统计之判别分析（下）&,&url&:&\u002Fp\u002F&,&commentPermission&:&ARTICLE_ALL_CAN_COMMENT&,&snapshotUrl&:&&,&created&:,&comments&:0,&columnId&:21507,&content&:&&,&parentId&:0,&state&:&ARTICLE_PUBLISHED&,&imageUrl&:&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-b985faec82ba76406dec7db_r.jpg&,&author&:{&bio&:&&,&isFollowing&:false,&hash&:&f00b64464e&,&uid&:68,&isOrg&:false,&slug&:&li-zhi-bin-48&,&isFollowed&:false,&description&:&不以物喜，不以己悲；严于律己，脚踏实地&,&name&:&Jason&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fli-zhi-bin-48&,&avatar&:{&id&:&v2-78d84c9c1c78bc1d9f56e2&,&template&:&https:\u002F\u002Fpic2.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&memberId&:1406742,&excerptTitle&:&&,&voteType&:&ARTICLE_VOTE_CLEAR&},&id&:481958}],&title&:&Learn R
多元统计之判别分析（下）&,&author&:&li-zhi-bin-48&,&content&:&\u003Cp\u003E接上文，继续学习贝叶斯判别与Fisher判别。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Ch2\u003E一、贝叶斯判别基本理论\u003C\u002Fh2\u003E\u003Cp\u003E贝叶斯判别法的前提是假定我们已经对所要分析的数据有所了解（比如数据服从什么分别，各个类别的先验概率等），根据各个类别的先验概率求得新样本属于某类的后验概率。该算法应用到经典的贝叶斯公式，该公式为：\u003C\u002Fp\u003E\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=P%28B_%7Bi%7D%7CA+%29+%3D+%5Cfrac%7BP%28A%7CB_%7Bi%7D%29P%28B_%7Bi%7D++%29%7D%7B%5Csum_%7Bi%7D%7BP%28A%7CB_%7Bi%7D+%29P%28B_%7Bi%7D+%29%7D+%7D+\& alt=\&P(B_{i}|A ) = \\frac{P(A|B_{i})P(B_{i}
)}{\\sum_{i}{P(A|B_{i} )P(B_{i} )} } \& eeimg=\&1\&\u003E\u003Cp\u003E假设有两个总体\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=G_%7B1%7D+\& alt=\&G_{1} \& eeimg=\&1\&\u003E和\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=G_%7B2%7D+\& alt=\&G_{2} \& eeimg=\&1\&\u003E，分别具有概率密度函数\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=f_%7B1%7D%28x%29+\& alt=\&f_{1}(x) \& eeimg=\&1\&\u003E和\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=f_%7B2%7D%28x%29+\& alt=\&f_{2}(x) \& eeimg=\&1\&\u003E，并且根据以往的统计分析，两个总体各自出现的先验概率为\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=q_%7B1%7D+\& alt=\&q_{1} \& eeimg=\&1\&\u003E和\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=q_%7B2%7D+\& alt=\&q_{2} \& eeimg=\&1\&\u003E，当一个样本\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=x_%7B0%7D+\& alt=\&x_{0} \& eeimg=\&1\&\u003E发生时，求该样本属于某一类的概率，计算公式为：\u003C\u002Fp\u003E\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=P%28G_%7Bi%7D%7Cx_%7B0%7D++%29+%3D+%5Cfrac%7Bq_%7Bi%7Df_%7Bi%7D%28x_%7B0%7D+%29++%7D%7B%5Csum_%7Bj%7D%7Bq_%7Bj%7Df_%7Bj%7D%28x_%7B0%7D+%29++%7D+%7D+i%3D1%2C2\& alt=\&P(G_{i}|x_{0}
) = \\frac{q_{i}f_{i}(x_{0} )
}{\\sum_{j}{q_{j}f_{j}(x_{0} )
} } i=1,2\& eeimg=\&1\&\u003E\u003Cbr\u003E\u003Cp\u003E这样，我们得到了该样本属于两类总体的概率，分别为\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=P%28G_%7B1%7D%7Cx_%7B0%7D++%29\& alt=\&P(G_{1}|x_{0}
)\& eeimg=\&1\&\u003E和\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=P%28G_%7B2%7D%7Cx_%7B0%7D++%29\& alt=\&P(G_{2}|x_{0}
)\& eeimg=\&1\&\u003E，属于哪一类总体的概率值大，我们则将样本划分到该类中。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Ch2\u003E二、贝叶斯判别的R实现\u003C\u002Fh2\u003E\u003Cp\u003E在R中，我们使用klaR包中的NaiveBayes()函数实现贝叶斯判别分析，函数调用公式如下：\u003C\u002Fp\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E& NaiveBayes(formula, data, ..., subset, na.action = na.pass)\n# formula指定参与模型计算的变量，以公式形式给出，类似于y=x1+x2+x3\n# na.action指定缺失值的处理方法，默认情况下不将缺失值纳入模型计算，也不会发生报错信息，当设为“na.omit”时则会删除含有缺失值的样本\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E# 数据准备，使用R内置数据集iris\n# 通过抽样建立训练样本(70%)和测试样本(30%)\n& index &- sample(2,size = nrow(iris),replace = TRUE,prob = c(0.7,0.3))\n& train_data &- iris[index == 1,]\n& test_data &- iris[index == 2,]\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E# 载入所用包\n& library(klaR)\n# 构建贝叶斯模型\n& Bayes_model &- NaiveBayes(Species ~ ., data = train_data)\n# 进行预测\n& Bayes_model_pre &- predict(Bayes_model, newdata = test_data[,1:4])\n# 生成实际与预判交叉表\n& table(test_data$Species,Bayes_model_pre$class)\n
setosa versicolor virginica\n
versicolor
7\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E从上表生成的交叉表中，我们可以看到在该模型中错判了3个。\u003C\u002Fp\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E# 生成预判精度\n& sum(diag(table(test_data$Species,Bayes_model_pre$class)))\n+ \u002F sum(table(test_data$Species,Bayes_model_pre$class))\n[1] 0.9361702\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cbr\u003E\u003Ch2\u003E三、Fisher判别基本理论\u003C\u002Fh2\u003E\u003Cp\u003EFisher判别法的基本思想是“投影”，将\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=K\& alt=\&K\& eeimg=\&1\&\u003E组\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=P\& alt=\&P\& eeimg=\&1\&\u003E维的数据向低维空间投影，使其投影的组与组之间的方差尽可能的大，组内的方差尽可能的小。因此，Fisher判别法的重点就是选择适当的“投影轴”。判别函数为\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=u%3Du%28x%29\& alt=\&u=u(x)\& eeimg=\&1\&\u003E，接下来我们以两类总体举例。\u003C\u002Fp\u003E\u003Cp\u003E首先我们将样本点投影到一维空间，旋转坐标轴至总体单位尽可能分开的方向，此时分类变量被简化为一个，判别函数\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=u+%3D+a_%7B1%7Dx+\& alt=\&u = a_{1}x \& eeimg=\&1\&\u003E；如果划分的效果不理想，可以考虑投影到二维空间（\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=u+%3D+a_%7B1%7D+x_%7B1%7D+%2Ba_%7B2%7D+x_%7B2%7D+\& alt=\&u = a_{1} x_{1} +a_{2} x_{2} \& eeimg=\&1\&\u003E）,以此类推。\u003C\u002Fp\u003E\u003Cp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-12b746febb365a8ee97e4ba_b.jpg\& data-rawwidth=\&474\& data-rawheight=\&392\& class=\&origin_image zh-lightbox-thumb\& width=\&474\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-12b746febb365a8ee97e4ba_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='474'%20height='392'&&\u002Fsvg&\& data-rawwidth=\&474\& data-rawheight=\&392\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&474\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-12b746febb365a8ee97e4ba_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-12b746febb365a8ee97e4ba_b.jpg\&\u003E\u003C\u002Ffigure\u003E上图为二维空间的Fisher判别，从图中可以看到，无论我们把总体\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=G_%7B1%7D+\& alt=\&G_{1} \& eeimg=\&1\&\u003E和\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=G_%7B2%7D+\& alt=\&G_{2} \& eeimg=\&1\&\u003E投影到\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=x_%7B1%7D+\& alt=\&x_{1} \& eeimg=\&1\&\u003E还是\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=x_%7B2%7D\& alt=\&x_{2}\& eeimg=\&1\&\u003E轴，都不能很好的把两类总体区分出来。\u003C\u002Fp\u003E\u003Cp\u003E为此，我们需要寻找一条合适的投影线，使得两类总体向该线投影后的区分程度达到最大，线性判别函数\u003Cimg src=\&http:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=y+%3D+c_%7B1%7D+x_%7B1%7D+%2Bc_%7B2%7Dx_%7B2%7D++\& alt=\&y = c_{1} x_{1} +c_{2}x_{2}
\& eeimg=\&1\&\u003E即为该投影线的表达形式（这里我们仅介绍Fisher判别的基本原理，不涉及参数的具体推导和求解，这些都可用R程序求得）。\u003Cbr\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cnoscript\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-9ffa4ce4d31_b.jpg\& data-rawwidth=\&590\& data-rawheight=\&421\& class=\&origin_image zh-lightbox-thumb\& width=\&590\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-9ffa4ce4d31_r.jpg\&\u003E\u003C\u002Fnoscript\u003E\u003Cimg src=\&data:image\u002Fsvg+utf8,&svg%20xmlns='http:\u002F\u002Fwww.w3.org\u002FFsvg'%20width='590'%20height='421'&&\u002Fsvg&\& data-rawwidth=\&590\& data-rawheight=\&421\& class=\&origin_image zh-lightbox-thumb lazy\& width=\&590\& data-original=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-9ffa4ce4d31_r.jpg\& data-actualsrc=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-9ffa4ce4d31_b.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cbr\u003E\u003Ch2\u003E四、Fisher判别的R实现\u003C\u002Fh2\u003E\u003Cp\u003E在R中，我们使用MASS包中的lda()函数实现Fisher判别分析，函数调用公式如下：\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E& lda(formula, data, ..., subset, na.action)\n# formula:指定参与模型计算的变量，以公式形式给出，类似于y=x1+x2+x3\n# na.action:指定缺失值的处理方法，默认情况下，缺失值的存在使算法无法运行，当设置为“na.omit”时则会删除含有缺失值的样本\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E# 数据准备，使用R内置数据集iris\n# 通过抽样建立训练样本(70%)和测试样本(30%)\n& index &- sample(2,size = nrow(iris),replace = TRUE, prob = c(0.7,0.3))\n& train_data &- iris[index == 1,]\n& test_data &- iris[index == 2,]\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E# 载入所用包\n& library(MASS)\n# 构建Fisher判别模型\n& fisher_model &- lda(Species~., data = train_data)\n# 进行预测\n& fisher_model_pre &- predict(fisher_model, newdata = test_data[,1:4])\n# 生成实际与预判交叉表\n& table(test_data$Species,fisher_model_pre$class)\n
setosa versicolor virginica\n
versicolor
18\n# 生成预判精度\n& sum(diag(table(test_data$Species,fisher_model_pre$class)))\n+ \u002F sum(table(test_data$Species,fisher_model_pre$class))\n[1] 0.9811321\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cbr\u003E\u003Ch2\u003E五、Fisher判别进阶——非线性判别\u003C\u002Fh2\u003E\u003Cp\u003E在判别分析的实际应用中，对复杂的数据使用线性判别可能无法得到理想的效果。为此，我们需要使用类似于二次判别函数的非线性分类方法，将样本点投影到若干种二次曲面中，实现理想的判别效果。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E在R中，非线性判别使用MASS包的qda()函数来实现，调用公式为：\u003C\u002Fp\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E& qda(formula, data, ..., subset, na.action)\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E# 使用lda()函数同样的数据集\n& fisher_model_2 &- qda(Species~., data = train_data)\n& fisher_model_pre_2 &- predict(fisher_model_2, newdata = test_data[,1:4])\n& table(test_data$Species,fisher_model_pre_2$class)\n
setosa versicolor virginica\n
versicolor
18\n& sum(diag(table(test_data$Species,fisher_model_pre_2$class)))\n+ \u002F sum(table(test_data$Species,fisher_model_pre_2$class))\n[1] 0.9811321\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E结果我们发现，线性判别法和非线性的二次判别法得到的结果一致，这说明线性判别法已经能够很好的将数据的类别划分出来了，且准确率达到98%。不过我们需要认识到，这一结果主要是由于我们所用的数据集较为简单直观，对于更为复杂的高维数据，非线性判别要比线性判别在准确度上有着较大的提升。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E\u003Cb\u003E附参考书目及学习文档：\u003C\u002Fb\u003E\u003C\u002Fp\u003E\u003Col\u003E\u003Cli\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fbook.douban.com\u002Fsubject\u002F2F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E多元统计分析 (豆瓣)\u003Ci class=\&icon-external\&\u003E\u003C\u002Fi\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fwww.r-bloggers.com\u002Flang\u002Fchinese\u002F612\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ER语言多元分析系列之四：判别分析\u003Ci class=\&icon-external\&\u003E\u003C\u002Fi\u003E\u003C\u002Fa\u003E\u003C\u002Fli\u003E\u003C\u002Fol\u003E&,&updated&:new Date(&T14:23:04.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:11,&collapsedCount&:0,&likeCount&:27,&state&:&published&,&isLiked&:false,&slug&:&&,&lastestTipjarors&:[],&isTitleImageFullScreen&:true,&rating&:&none&,&titleImage&:&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-b985faec82ba76406dec7db_r.jpg&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&reviewers&:[],&topics&:[{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&R（编程语言）&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&统计学&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&数据分析&}],&adminClosedComment&:false,&titleImageSize&:{&width&:1614,&height&:1080},&href&:&\u002Fapi\u002Fposts\u002F&,&excerptTitle&:&&,&column&:{&slug&:&The-Art-of-Data&,&name&:&数据科学笔记本&},&tipjarState&:&activated&,&tipjarTagLine&:&真诚赞赏，手留余香&,&sourceUrl&:&&,&pageCommentsCount&:11,&tipjarorCount&:0,&annotationAction&:[],&hasPublishingDraft&:false,&snapshotUrl&:&&,&publishedTime&:&T22:23:04+08:00&,&url&:&\u002Fp\u002F&,&lastestLikers&:[{&bio&:&我把知乎卸掉让生活变得简单&,&isFollowing&:false,&hash&:&c0ae8d7251e5ecf26c83a95e06d5e515&,&uid&:56,&isOrg&:false,&slug&:&wenhaoji&,&isFollowed&:false,&description&:&&,&name&:&睁眼观世界&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fwenhaoji&,&avatar&:{&id&:&85a6f65c813ab487bd59575ebf3e8dc9&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&统计学&,&isFollowing&:false,&hash&:&30d0e26aee7fded&,&uid&:566900,&isOrg&:false,&slug&:&xing-zou-de-fu-li-ang-48&,&isFollowed&:false,&description&:&&,&name&:&Joey&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fxing-zou-de-fu-li-ang-48&,&avatar&:{&id&:&v2-e6d2c5bfe&,&template&:&https:\u002F\u002Fpic3.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&拉丁舞老师\u002F导游\u002F数据分析\u002F数学老师&,&isFollowing&:false,&hash&:&57f5dbce113bdfdb663be35a&,&uid&:790500,&isOrg&:false,&slug&:&mu-mu-xiao-ne&,&isFollowed&:false,&description&:&有态度的活着、非常暴躁、非常深情&,&name&:&木木小ne&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fmu-mu-xiao-ne&,&avatar&:{&id&:&da8e974dc&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&医保、统计&,&isFollowing&:false,&hash&:&74ace02b70a08b1c93f31cfd194ae55b&,&uid&:112400,&isOrg&:false,&slug&:&hai-yan-86-74&,&isFollowed&:false,&description&:&光随影动&,&name&:&二更&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fhai-yan-86-74&,&avatar&:{&id&:&v2-de0fe0e0c0e5f97b4f8f&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&统计学的小透明&,&isFollowing&:false,&hash&:&f42ea005cb9fdfe5bc9dd3&,&uid&:000600,&isOrg&:false,&slug&:&hong-yao-qing-1&,&isFollowed&:false,&description&:&听取蛙声一片&,&name&:&稻花香里说丰年&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fhong-yao-qing-1&,&avatar&:{&id&:&v2-2b3f7eee0b9e7fa0a7a9b179a1cb377a&,&template&:&https:\u002F\u002Fpic2.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false}],&summary&:&\u003Cimg src=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-9ffa4ce4d31_200x112.jpg\& data-rawwidth=\&590\& data-rawheight=\&421\& class=\&origin_image inline-img zh-lightbox-thumb\& data-original=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-9ffa4ce4d31_r.jpg\&\u003E接上文，继续学习贝叶斯判别与Fisher判别。一、贝叶斯判别基本理论贝叶斯判别法的前提是假定我们已经对所要分析的数据有所了解（比如数据服从什么分别，各个类别的先验概率等），根据各个类别的先验概率求得新样本属于某类的后验概率。该算法应用到经典的…&,&reviewingCommentsCount&:0,&meta&:{&previous&:{&isTitleImageFullScreen&:true,&rating&:&none&,&titleImage&:&https:\u002F\u002Fpic3.zhimg.com\u002F50\u002Fv2-fa02e6eefc178d_xl.jpg&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&topics&:[{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&R（编程语言）&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&统计学&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&数据分析&}],&adminClosedComment&:false,&href&:&\u002Fapi\u002Fposts\u002F&,&excerptTitle&:&&,&author&:{&bio&:&&,&isFollowing&:false,&hash&:&f00b64464e&,&uid&:68,&isOrg&:false,&slug&:&li-zhi-bin-48&,&isFollowed&:false,&description&:&不以物喜，不以己悲；严于律己，脚踏实地&,&name&:&Jason&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fli-zhi-bin-48&,&avatar&:{&id&:&v2-78d84c9c1c78bc1d9f56e2&,&template&:&https:\u002F\u002Fpic2.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&column&:{&slug&:&The-Art-of-Data&,&name&:&数据科学笔记本&},&content&:&\u003Ch2\u003E前言\u003C\u002Fh2\u003E\u003Cp\u003E判别分析\u003Cb\u003E（discriminant analysis）\u003C\u002Fb\u003E是多元统计分析中较为成熟的一种分类方法，它的核心思想是\u003Cb\u003E“分类与判断”，\u003C\u002Fb\u003E即根据已知类别的样本所提供的信息，总结出分类的规律性，并建立好判别公式和判别准则，在此基础上，新的样本点将按照此准则判断其所属类型。例如，根据一年甚至更长时间的每天的湿度差及压差，我们可以建立一个用于判别是否会下雨的模型，当我们获取到某一天（建立模型以外的数据）的湿度差及压差后，使用已建立好的模型，就可以得出这一天是否会下雨的判断。\u003C\u002Fp\u003E\u003Cp\u003E根据判别的组数来区分，判别分析可以分为两组判别和多组判别。接下来，我们将学习三种常见的判别分析方法，分别是：\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E距离判别\u003C\u002Fli\u003E\u003Cli\u003EBayes判别\u003Cbr\u003E\u003C\u002Fli\u003E\u003Cli\u003EFisher判别\u003Cbr\u003E\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Ch2\u003E一、距离判别基本理论\u003C\u002Fh2\u003E\u003Cp\u003E假设存在两个总体\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=G_%7B1%7D+\& alt=\&G_{1} \& eeimg=\&1\&\u003E和\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=G_%7B2%7D+\& alt=\&G_{2} \& eeimg=\&1\&\u003E，另有\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=x\& alt=\&x\& eeimg=\&1\&\u003E为一个\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=p\& alt=\&p\& eeimg=\&1\&\u003E维的样本值，计算得到该样本到两个总体的距离\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=d%28x%2CG_%7B1%7D+%29\& alt=\&d(x,G_{1} )\& eeimg=\&1\&\u003E和\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=d%28x%2CG_%7B2%7D+%29\& alt=\&d(x,G_{2} )\& eeimg=\&1\&\u003E,如果\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=d%28x%2CG_%7B1%7D+%29\& alt=\&d(x,G_{1} )\& eeimg=\&1\&\u003E大于\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=d%28x%2CG_%7B2%7D+%29\& alt=\&d(x,G_{2} )\& eeimg=\&1\&\u003E，则认为样本\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=x\& alt=\&x\& eeimg=\&1\&\u003E属于总体\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=G_%7B2%7D+\& alt=\&G_{2} \& eeimg=\&1\&\u003E，反之样本\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=x\& alt=\&x\& eeimg=\&1\&\u003E则属于总体\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=G_%7B1%7D+\& alt=\&G_{1} \& eeimg=\&1\&\u003E；若\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=d%28x%2CG_%7B1%7D+%29\& alt=\&d(x,G_{1} )\& eeimg=\&1\&\u003E等于\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=d%28x%2CG_%7B2%7D+%29\& alt=\&d(x,G_{2} )\& eeimg=\&1\&\u003E，则该样本待判。这就是距离判别法的基本思想。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cp\u003E在距离判别法中，最核心的问题在于距离的计算，一般情况下我们最常用的是欧式距离，但由于该方法在计算多个总体之间的距离时并不考虑方差的影响，而马氏距离不受指标量纲及指标间相关性的影响，弥补了欧式距离在这方面的缺点，其计算公式如下：\u003C\u002Fp\u003E\u003Cp\u003E\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=d_%7Bij%7D%5E%7B2%7D+%3D+%28x_%7Bi%7D+-x_%7Bj%7D+%29%5E%7BT%7D+S%5E%7B-1%7D++%28x_%7Bi%7D+-x_%7Bj%7D+%29\& alt=\&d_{ij}^{2} = (x_{i} -x_{j} )^{T} S^{-1}
(x_{i} -x_{j} )\& eeimg=\&1\&\u003E，\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=S%5E%7B-1%7D+\& alt=\&S^{-1} \& eeimg=\&1\&\u003E为总体之间的协方差矩阵\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Ch2\u003E二、距离判别的R实现（训练样本）\u003C\u002Fh2\u003E\u003Cp\u003E首先我们导入数据\u003C\u002Fp\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E# 读取SAS数据\n& library(sas7bdat)\n& data1 &- read.sas7bdat('disl01.sas7bdat')\n# 截取所需列数据，用于计算马氏距离\n& testdata &- data1[2:5]\n& head(testdata,3)\n
X4\n1 -0.45 -0.41 1.09 0.45\n2 -0.56 -0.31 1.51 0.16\n3
0.02 1.01 0.40\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E# 计算列均值\n& colM &- colMeans(testdata)\n& colM\n
X4 \n 0. -0.
0. \n# 计算矩阵的协方差\n& cov_test &- cov(testdata)\n& cov_test\n
0....\nX4 -0....\n# 样本的马氏距离计算\n& distance &- mahalanobis(testdata,colM,cov_test)\n& head(distance,5)\n[1] 12.....369820\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E这样，我们得到了距离判别中最关键的马氏距离值，在此基础上就可以进行进一步的判别分析了。不过我们介绍一个R的第三方包WMDB，该包的wmd()函数可以简化我们的距离判别过程，函数将输出样本的分类判别结果、错判的样本信息以及判别分析的准确度。\u003C\u002Fp\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E& library(WMDB)\n& head(data1,3)\n
X4\n1 1 -0.45 -0.41 1.09 0.45\n2 1 -0.56 -0.31 1.51 0.16\n3 1
0.02 1.01 0.40\n# 提取原始数据集的A列生成样品的已知类别\n& testdata_group &- data1$A\n# 转换为因子变量，用于wmd()函数中\n& testdata_group &- as.factor(testdata_group)\n& wmd(testdata,testdata_group)\n
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27\nblong 1 1 1 1 1 1 1 1 1
28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46\nblong 2
2\n[1] \&num of wrong judgement\&\n [1] 15 16 20 22 23 24 34 38 39 40 41 42 44\n[1] \&samples divided to\&\n [1] 2 2 2 1 1 1 1 1 1 1 1 1 1\n[1] \&samples actually belongs to\&\n [1] 1 1 1 2 2 2 2 2 2 2 2 2 2\nLevels: 1 2\n[1] \&percent of right judgement\&\n[1] 0.7173913\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E由分析结果可知，根据已知分类的训练样品建立的判别规则，重新应用于训练样品后，出现了13个错判样品，拥有71.7%的准确度。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Ch2\u003E三、距离判别的R实现（测试样本）\u003C\u002Fh2\u003E\u003Cp\u003E接着，当我们获取到未分类的新样本数据时，使用wmd()函数，在训练样本的基础上进行这些数据的距离判别\u003C\u002Fp\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E# 导入数据，一共10个样本\n& data2 &- read.sas7bdat('disldp01.sas7bdat')\n# 截取所需列数据\n& newtestdata &- data2[1:4]\n# 进行判别分析\n& wmd(testdata,testdata_group,TstX = newtestdata)\n
1 2 3 4 5 6 7 8 9 10\nblong 1 1 1 1 1 1 2 2 2
1\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E根据马氏距离判别分析得到的结果，10个待判样品中，第一类7个，第二类3个。\u003C\u002Fp\u003E\u003Cp\u003E距离判别方法简单实用，它只要求知道总体的数字特征，而不涉及总体的分布，当总体均值和协方差未知时，就用样本的均值和协方差矩阵来估计，因此距离判别没有考虑到每个总体出现的机会大小，即先验概率，没有考虑到错判的损失。因此，我们进一步学习贝叶斯判别法。\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E未完待续\u003C\u002Fi\u003E\u003C\u002Fp\u003E&,&state&:&published&,&sourceUrl&:&&,&pageCommentsCount&:0,&canComment&:false,&snapshotUrl&:&&,&slug&:,&publishedTime&:&T13:41:04+08:00&,&url&:&\u002Fp\u002F&,&title&:&Learn R
多元统计之判别分析（上）&,&summary&:&前言判别分析\u003Cb\u003E（discriminant analysis）\u003C\u002Fb\u003E是多元统计分析中较为成熟的一种分类方法，它的核心思想是\u003Cb\u003E“分类与判断”，\u003C\u002Fb\u003E即根据已知类别的样本所提供的信息，总结出分类的规律性，并建立好判别公式和判别准则，在此基础上，新的样本点将按照此准则判断其所属类型…&,&reviewingCommentsCount&:0,&meta&:{&previous&:null,&next&:null},&commentPermission&:&anyone&,&commentsCount&:5,&likesCount&:42},&next&:{&isTitleImageFullScreen&:true,&rating&:&none&,&titleImage&:&https:\u002F\u002Fpic3.zhimg.com\u002F50\u002Fv2-9e6a7a46dc7c9bbd76b29c4_xl.jpg&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&topics&:[{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&R（编程语言）&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&统计学&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&数据分析&}],&adminClosedComment&:false,&href&:&\u002Fapi\u002Fposts\u002F&,&excerptTitle&:&&,&author&:{&bio&:&&,&isFollowing&:false,&hash&:&f00b64464e&,&uid&:68,&isOrg&:false,&slug&:&li-zhi-bin-48&,&isFollowed&:false,&description&:&不以物喜，不以己悲；严于律己，脚踏实地&,&name&:&Jason&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fli-zhi-bin-48&,&avatar&:{&id&:&v2-78d84c9c1c78bc1d9f56e2&,&template&:&https:\u002F\u002Fpic2.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&column&:{&slug&:&The-Art-of-Data&,&name&:&数据科学笔记本&},&content&:&\u003Ch2\u003E前言\u003C\u002Fh2\u003E\u003Cp\u003E探索性因子分析\u003Cstrong\u003E（Exploratory Factor Analysis，EFA）\u003C\u002Fstrong\u003E 是一项用于找出多元观测变量的本质结构、并进行数据降维处理的多元统计分析方法。之前我们已经学过主成分分析\u003Cb\u003E（PCA）\u003C\u002Fb\u003E，同样是数据降维，PCA与EFA的区别在于：\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cb\u003EPCA\u003C\u002Fb\u003E中的主成分是原始变量的线性组合，且各个主成分之间互不相关，这使得主成分比原始变量具有某些更优越的性能（一般来讲，主成分必须保留原始变量90%以上的信息），从而达到简化系统结构，抓住问题实质的目的。\u003Cbr\u003E\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003EEFA\u003C\u002Fb\u003E中的原始变量是公共因子的线性组合，根据相关矩阵内部的依赖关系，把一些具有错综复杂关系的变量综合为数量较少的几个因子。通过不同因子来分析决定某些变量的本质及其分类。简单地说，就是根据相关性大小把变量分组，使得同组内的变量之间相关性较高，不同组的变量相关性较低。每组变量代表一个基本结构，这个基本结构称为因子。\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E因子分析可以说是主成分分析的推广，相对于主成分分析，它在变量变换的基础上还需要构建因子模型，并描述原始变量之间的相关关系。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Ch2\u003E一、因子分析基本理论\u003C\u002Fh2\u003E\u003Cp\u003E因子分析模型的表达形式为：\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=X_%7Bi%7D+%3D++a_%7B1%7D+F_%7B1%7D+%2Ba_%7B2%7D+F_%7B2%7D+%2B...%2Ba_%7Bp%7D+F_%7Bp%7D+%2BU_%7Bi%7D+\& alt=\&X_{i} =
a_{1} F_{1} +a_{2} F_{2} +...+a_{p} F_{p} +U_{i} \& eeimg=\&1\&\u003E\u003C\u002Fp\u003E\u003Cblockquote\u003E其中，\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=X_%7Bi%7D+\& alt=\&X_{i} \& eeimg=\&1\&\u003E是第\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=i\& alt=\&i\& eeimg=\&1\&\u003E个可观测变量（\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=i+%3D+1%2C2%2C...%2Ck\& alt=\&i = 1,2,...,k\& eeimg=\&1\&\u003E），\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=F_%7Bj%7D+\& alt=\&F_{j} \& eeimg=\&1\&\u003E是公共因子（\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=j+%3D+1%2C2%2C...%2Cp\& alt=\&j = 1,2,...,p\& eeimg=\&1\&\u003E），并且\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=p%3Ck\& alt=\&p&k\& eeimg=\&1\&\u003E。\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=a_%7Bi%7D+\& alt=\&a_{i} \& eeimg=\&1\&\u003E为因子载荷，是每个因子对复合而成的可观测变量的贡献值。\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=U_%7Bi%7D+\& alt=\&U_{i} \& eeimg=\&1\&\u003E是\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=X_%7Bi%7D+\& alt=\&X_{i} \& eeimg=\&1\&\u003E变量无法被公共因子解释的部分，并且满足：\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=cov%28F_%7Bi%7D+%2CU_%7Bi%7D%29+%3D+0+\& alt=\&cov(F_{i} ,U_{i}) = 0 \& eeimg=\&1\&\u003E，即\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=F\& alt=\&F\& eeimg=\&1\&\u003E与\u003Cimg src=\&https:\u002F\u002Fwww.zhihu.com\u002Fequation?tex=U\& alt=\&U\& eeimg=\&1\&\u003E不相关。\u003C\u002Fblockquote\u003E\u003Cp\u003E首先，我们导入数据，进行相关系数矩阵的计算\u003C\u002Fp\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E& library(sas7bdat)\n& data &- read.sas7bdat('exec85.sas7bdat')\n# 截取所需列\n& data &- data[1:15]\n& head(data,3)\n
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14 x15\n1
10\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E这份数据是某公司对48名应聘者进行面试，并给出他们各自在15个方面所得的分数，这15个指标分别是：\u003C\u002Fp\u003E\u003Cfigure\u003E\u003Cimg src=\&https:\u002F\u002Fpic3.zhimg.com\u002Fv2-36cc367de44c3c8fea39eb_b.jpg\& data-rawwidth=\&367\& data-rawheight=\&112\& class=\&content_image\& width=\&367\&\u003E\u003C\u002Ffigure\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E# 计算相关系数矩阵\n& head(cor(data),3)\n
x6\nx1 1...... \nx2 0......
\nx3 0......\n
x1 -0.......3674529 \nx2
0.......5073769
x3 -0.......2900322 \n
0..5859182\nx2
0..3842084\nx3 -0..1400174\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cbr\u003E\u003Ch2\u003E二、公共因子提取\u003C\u002Fh2\u003E\u003Cp\u003E与主成分分析相同的是，我们使用\u003Cb\u003Epsych\u003C\u002Fb\u003E包中\u003Cb\u003Efa.parallel()\u003C\u002Fb\u003E函数绘制碎石图：\u003C\u002Fp\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E& library(psych)\n& cor_data &- cor(data)\n# fa=\&both\&：同时展示主成分分析和因子分析的结果\n& fa.parallel(cor_data, n.obs=112, fa=\&both\&, n.iter=100) \nParallel analysis suggests that the number of factors =
and the number of components =
3\n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cfigure\u003E\u003Cimg src=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-91ef5b4be9dae59361d21e_b.jpg\& data-rawwidth=\&1128\& data-rawheight=\&702\& class=\&origin_image zh-lightbox-thumb\& width=\&1128\& data-original=\&https:\u002F\u002Fpic1.zhimg.com\u002Fv2-91ef5b4be9dae59361d21e_r.jpg\&\u003E\u003C\u002Ffigure\u003E\u003Cp\u003E结合上图和函数给出的信息得到以下结论：如果使用PCA，我们需要选择三个主成分；如果使用EFA，我们需要选择4个因子。\u003C\u002Fp\u003E\u003Cp\u003E使用fa()函数进行因子提取，调用公式如下：\u003C\u002Fp\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E& fa(r, nfactors=, n.obs=, rotate=, scores=, fm=)\n# r:相关系数矩阵或原始数据矩阵，\n# nfactors:设定主提取的因子数（默认为1）\n# n.obs:观测数（输入相关系数矩阵时需要填写）\n# rotate:设定旋转的方法（默认互变异数最小法）\n# scores:设定是否需要计算因子得分（默认不需要）\n# fm:设定因子化方法（默认极小残差法） \n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E与主成分分析不同的是，在因子分析中我们需要指定提取公因子的方法（\u003Cb\u003Efm\u003C\u002Fb\u003E），方法包括：\u003C\u002Fp\u003E\u003Cul\u003E\u003Cli\u003E\u003Cb\u003Eml\u003C\u002Fb\u003E：最大似然法\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003Epa\u003C\u002Fb\u003E：主轴迭代法\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003Ewls\u003C\u002Fb\u003E：加权最小二乘法\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003Egls\u003C\u002Fb\u003E：广义加权最小二乘法\u003C\u002Fli\u003E\u003Cli\u003E\u003Cb\u003Eminres\u003C\u002Fb\u003E：最小残差法\u003C\u002Fli\u003E\u003C\u002Ful\u003E\u003Cp\u003E这里我们选用主轴迭代法进行未旋转因子的提取。\u003C\u002Fp\u003E\u003Cdiv class=\&highlight\&\u003E\u003Cpre\u003E\u003Ccode class=\&language-text\&\u003E\u003Cspan\u003E\u003C\u002Fspan\u003E& fa_model &- fa(cor_data,nfactors = 4,rotate = 'none',fm='pa')\n& fa_model\nFactor Analysis using method =
pa\nCall: fa(r = cor_data, nfactors = 4, rotate = \&none\&, fm = \&pa\&)\nStandardized loadings (pattern matrix) based upon correlation matrix\n
u2 com\nx1
0.28 -0.13 0.55 0.446 2.6\nx2
0.54 -0.03
0.16 0.31 0.687 1.2\nx3
0.28 -0.29
0.58 0.51 0.490 2.1\n......\n\n
PA4\nSS loadings
7.31 1.74 1.25 0.88\nProportion Var
0.49 0.12 0.08 0.06\nCumulative Var
0.49 0.60 0.69 0.75\nProportion Explained
0.65 0.16 0.11 0.08\nCumulative Proportion 0.65 0.81 0.92 1.00\n...... \n\u003C\u002Fcode\u003E\u003C\u002Fpre\u003E\u003C\u002Fdiv\u003E\u003Cp\u003E结果显示，四个因子解释了原始15个变量的75%的方差（其他参数的解释具体可见：\u003Ca href=\&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fp\u002F?refer=c_\& class=\&internal\&\u003ELearn R | 数据降维之主成分分析（下）\u003C\u002Fa\u003E）。接下来我们进行因子旋转，目的在于使因子载荷更容易被解释。\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E未完待续\u003C\u002Fi\u003E\u003C\u002Fp\u003E&,&state&:&published&,&sourceUrl&:&&,&pageCommentsCount&:0,&canComment&:false,&snapshotUrl&:&&,&slug&:,&publishedTime&:&T17:43:16+08:00&,&url&:&\u002Fp\u002F&,&title&:&Learn R
数据降维之因子分析（上）&,&summary&:&前言探索性因子分析\u003Cstrong\u003E（Exploratory Factor Analysis，EFA）\u003C\u002Fstrong\u003E 是一项用于找出多元观测变量的本质结构、并进行数据降维处理的多元统计分析方法。之前我们已经学过主成分分析\u003Cb\u003E（PCA）\u003C\u002Fb\u003E，同样是数据降维，PCA与EFA的区别在于：\u003Cb\u003EPCA\u003C\u002Fb\u003E中的主成分是原始变量的线性组合，…&,&reviewingCommentsCount&:0,&meta&:{&previous&:null,&next&:null},&commentPermission&:&anyone&,&commentsCount&:6,&likesCount&:43}},&annotationDetail&:null,&commentsCount&:11,&likesCount&:27,&FULLINFO&:true}},&User&:{&li-zhi-bin-48&:{&isFollowed&:false,&name&:&Jason&,&headline&:&不以物喜，不以己悲；严于律己，脚踏实地&,&avatarUrl&:&https:\u002F\u002Fpic2.zhimg.com\u002Fv2-78d84c9c1c78bc1d9f56e2_s.jpg&,&isFollowing&:false,&type&:&people&,&slug&:&li-zhi-bin-48&,&bio&:&&,&hash&:&f00b64464e&,&uid&:68,&isOrg&:false,&description&:&不以物喜，不以己悲；严于律己，脚踏实地&,&badge&:{&identity&:null,&bestAnswerer&:null},&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fli-zhi-bin-48&,&avatar&:{&id&:&v2-78d84c9c1c78bc1d9f56e2&,&template&:&https:\u002F\u002Fpic2.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false}},&Comment&:{},&favlists&:{}},&me&:{},&global&:{&experimentFeatures&:{&ge3&:&ge3_9&,&ge2&:&ge2_1&,&nwebStickySidebar&:&sticky&,&searchSectionStyle&:&loosen&,&androidPassThroughPush&:&all&,&newMore&:&new&,&nwebQAGrowth&:&experiment&,&showTipInLiveDetailsPage&:&true&,&nwebFeedAd&:&experiment&,&newSign&:&newVersion&,&liveReviewBuyBar&:&live_review_buy_bar_2&,&qawebRelatedReadingsContentControl&:&open&,&marketTabBanner&:&market_tab_banner_show&,&liveStore&:&ls_a2_b2_c1_f2&,&qawebThumbnailAbtest&:&new&,&nwebSearch&:&nweb_search_heifetz&,&searchHybridTabs&:&without-tabs&,&enableVoteDownReasonMenu&:&enable&,&showVideoUploadAttention&:&true&,&isOffice&:&false&,&enableTtsPlay&:&post&,&newQuestionDiversion&:&false&,&wechatShareModal&:&wechat_share_modal_show&,&newLiveFeedMediacard&:&old&,&hybridZhmoreVideo&:&no&,&recommendationAbtest&:&new&,&nwebGrowthPeople&:&default&,&qrcodeLogin&:&qrcode&,&isShowUnicomFreeEntry&:&unicom_free_entry_off&,&newMobileColumnAppheader&:&new_header&,&questionRecommendReadingsAbtest&:&similar&,&androidDbCommentWithRepinRecord&:&open&,&androidDbRecommendAction&:&open&,&zcmLighting&:&zcm&,&androidDbFeedHashTagStyle&:&button&,&appStoreRateDialog&:&close&,&default&:&None&,&isNewNotiPanel&:&no&,&androidDbRepinSelection&:&open&,&nwebRelatedAdvert&:&default&,&qaStickySidebar&:&sticky_sidebar&,&androidProfilePanel&:&panel_b&,&nwebWriteAnswer&:&experiment&}},&columns&:{&next&:{},&The-Art-of-Data&:{&following&:false,&canManage&:false,&href&:&\u002Fapi\u002Fcolumns\u002FThe-Art-of-Data&,&name&:&数据科学笔记本&,&creator&:{&slug&:&li-zhi-bin-48&},&url&:&\u002FThe-Art-of-Data&,&slug&:&The-Art-of-Data&,&avatar&:{&id&:&v2-364e941964&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&}}},&columnPosts&:{},&columnSettings&:{&colomnAuthor&:[],&uploadAvatarDetails&:&&,&contributeRequests&:[],&contributeRequestsTotalCount&:0,&inviteAuthor&:&&},&postComments&:{},&postReviewComments&:{&comments&:[],&newComments&:[],&hasMore&:true},&favlistsByUser&:{},&favlistRelations&:{},&promotions&:{},&switches&:{&couldSetPoster&:false},&draft&:{&titleImage&:&&,&titleImageSize&:{},&isTitleImageFullScreen&:false,&canTitleImageFullScreen&:false,&title&:&&,&titleImageUploading&:false,&error&:&&,&content&:&&,&draftLoading&:false,&globalLoading&:false,&pendingVideo&:{&resource&:null,&error&:null}},&drafts&:{&draftsList&:[],&next&:{}},&config&:{&userNotBindPhoneTipString&:{}},&recommendPosts&:{&articleRecommendations&:[],&columnRecommendations&:[]},&env&:{&edition&:{&baidu&:false,&yidianzixun&:false,&qqnews&:false},&isAppView&:false,&appViewConfig&:{&content_padding_top&:128,&content_padding_bottom&:56,&content_padding_left&:16,&content_padding_right&:16,&title_font_size&:22,&body_font_size&:16,&is_dark_theme&:false,&can_auto_load_image&:true,&app_info&:&OS=iOS&},&isApp&:false,&userAgent&:{&ua&:&Mozilla\u002F5.0 (compatible, MSIE 11, Windows NT 6.3; Trident\u002F7.0; rv:11.0) like Gecko&,&browser&:{&name&:&IE&,&version&:&11&,&major&:&11&},&engine&:{&version&:&7.0&,&name&:&Trident&},&os&:{&name&:&Windows&,&version&:&8.1&},&device&:{},&cpu&:{}}},&message&:{&newCount&:0},&pushNotification&:{&newCount&:0}}}

我爱游戏网