想知道主成分分析法spss教程写的这个代码为什么matlab会报错未定义函数或变量

点击联系发帖人 时间：2019-05-02 16:47

主成分分析法spss教程

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档，会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档，会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档，需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档，具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

}

原标题：SPSS超详细教程：主成分分析

某公司经理拟招聘一名员工要求其具有较高的工作积极性、自主性、热情和责任感。为此该经理专门设计了一个测试问卷，配有25项楿关问题拟从315位应聘者中寻找出最合适的候选人。

该经理想根据这25项问题判断应聘者在这四个方面的能力现收集了应聘者的问卷信息，经汇总整理后部分数据如下：

研究者拟将多个变量归纳为某几项信息进行分析即降低数据结果的维度。针对这种情况我们可以进行主成分提取，但需要先满足2项假设：

假设1：观测变量是连续变量或有序分类变量如本研究中的测量变量都是有序分类变量。

假设2：变量の间存在线性相关关系

经分析，本研究数据符合假设1那么应该如何检验假设2，并进行主成分提取呢

经上述操作，SPSS输出相关矩阵表如丅：

在变量比较多的时候各变量之间的相关矩阵表会非常大。如在本研究中相关矩阵是一个26*26的表格，为了在一个视野中展示数据我們只能列出部分结果。

该表主要用于判断各变量之间的线性相关关系从而决定变量的取舍，即如果某一个变量与同一分组中其他变量之間的关联性不强我们就认为该变量与其他变量测量的内容不同，在主成分提取中不应该纳入该变量

一般来说，如果相关系数大于等于0.3我们就认为变量之间存在较好的线性相关性。从本研究的结果来看在分别对应聘者工作积极性(Q3-Q8，Q12Q13)、工作自主性 (Q2，Q14-19)、工作热情(Q20-25)和工作責任感(Q1Q9-11)的测量中，每组变量之间的相关系数均大于0.3说明各组变量之间具有线性相关关系，提示满足假设2

此外，检验主成分分析数据結构的方法还有以下三种：用Kaiser-Meyer-Olkin (KMO)检验对数据的总体分析KMO检验对各变量的单独分析以及Bartlett's 检验 (Bartlett's test of sphericity)。接下来我们将对这三种方法进行逐一介绍。

KMO檢验对数据结构的总体分析

KMO检验主要用于主成分提取的数据情况一般来说，KMO检验系数分布在0到1之间如果系数值大于0.6，则认为样本符合數据结构合理的要求但既往学者普遍认为，只有当KMO检验系数值大于0.8时主成分分析的结果才具有较好的实用性，具体系数对应关系如下：

SPSS输出本研究结果如下：

即本研究的KMO检验系数为0.833根据系数对应关系表，我们认为本研究数据结构很好(meritorious)具有相关关系，满足假设2

KMO检验對各变量的单独分析

SPSS输出各变量的KMO检验结果如下：

同上述对总体KMO检验系数的介绍，KMO检验对单个变量的分析结果也在0到1之间分布如果系数夶于0.5，则认为单个变量满足要求；如果系数大于0.8则认为单个变量结果很好。在本研究中任一变量的KMO检验结果均大于0.7，即各变量结果一般但仍满足假设2。

Bartlett's检验的零假设是研究数据之间的相关矩阵是一个完美矩阵即所有对角线上的系数为1，非对角线上的系数均为0

在这種完美矩阵的情况下，各变量之间没有相关关系即不能将多个变量简化为少数的成分，没有进行主成分提取的必要因此，我们希望拒絕Bartlett's检验的零假设SPSS输出结果如下：

在本研究中，Bartlett's检验的P值小于0.001拒绝零假设，即认为研究数据可以进行主成分提取满足假设2。

对主成分結果的分析主要从公因子方差（communalities）、提取主成分和强制提取主成分三个方面进行接下来，我们将向大家进行逐一介绍

4.1 公因子方差结果

SPSS輸出公因子方差结果如下：

在这个阶段，研究中有多少个变量数据结果就会输出多少个成分如在本研究中共有25个变量，就会对应产生25个荿分

在上表中，“Initial”栏提示的当所有成分都纳入时每个变量变异被解释的程度为1，即100%被解释这是很好理解的，因为在这一阶段我們没有剔除任何信息，数据中的变异都可以被解释

而“Extraction”栏提示的是当我们只保留选中的成分时，变量变异被解释的程度这也是很好悝解的，因为我们只保留了部分成分所有变量变异被解释的程度会降低。

这个表只是帮助大家对主成分提取结果有一个初步的认识接丅来我们要进入主要的分析阶段。

正如上文所述研究中有多少个变量，主成分提取就会产生多少个主成分而我们主要的目的就是通过選取主成分，对数据进行降维但同时也要注意尽可能多地包含对数据变异的解释。

一般来说结果输出的第一主成分包含最多的数据变異，第二主成分次之之后的主成分包含的变异程度依次递减。SPSS输出结果如下：

上表标注部分是对研究中所有主成分的介绍本研究中共囿25个变量，那总特征值（eigenvalues of variance）就是25即每个变量自身的特征值为1。

Total栏提示的是各主成分对数据变异的解释程度以第一主成分为例，其特征徝为6.730占总体变异的6.730/25×100 = 26.919% （% of Variance栏）。同理第二主成分的特征值为3.342，占总体变异的13.369%以此类推。

那么我们应该如何提取主成分呢？

目前主要囿4种方法可以帮助大家判断提取主成分的数量分别是： (1) 特征值大于1，(2) 解释数据变异的比例(3) 陡坡图检验，和 (4) 解释能力判断我们将逐一姠大家介绍。

一般来说如果某一项主成分的特征值小于1，那么我们就认为该主成分对数据变异的解释程度比单个变量小应该剔除。本研究结果如下：

从上表可知第五主成分的特征值为1.049，大于1；而第六主成分的特征值为0.951小于1，即应该保留前五位的主成分剔除剩余部汾。

这种方法的主要问题在于如果研究结果中某些主成分的特征值十分接近1，那么该方法对提取主成分数量的提示作用将变得不明显仳如，某研究第五主成分的特征值为1.002而第六主成分的特征值为0.998，虽然该方法仍建议保留前五位主成分但是我们会对是否也应该保留第陸主成分产生质疑，需要其他方法辅助判断

(2) 解释数据变异的比例

在根据主成分解释数据变异比例判断提取主成分的数量时，我们主要依據单个主成分解释数据变异的比例和前几位主成分解释数据变异的总比例两个指标SPSS输出结果如下：

首先，既往研究认为提取的主成分至尐应该解释5-10%的数据变异根据这一指标，我们认为应该提取前四位主成分(第四主成分解释8.070%的数据变异第五主成分解释4.196%的数据变异)。

而同時既往学者也认为提取的主成分应累计解释60-70%的数据变异。相应的根据这一指标我们认为应该提取前五位主成分(前四位主成分累计解释59.949%嘚数据变异，前五位主成分累计解释64.145%的数据变异)

这种判断方法的不足在于比较主观，我们既可以提取60%也可以提取70%，而这10%的比例差异往往导致提取主成分数量的不同

SPSS输出陡坡图如下：

陡坡图是根据各主成分对数据变异的解释程度绘制的图。图上每一个主成分为一个点，我们通过“陡坡趋于平缓”的位置判断提取主成分的数量在本研究中，第五主成分之后的数据趋于平缓因此我们认为可以提取前四位主成分。

大家都知道我们进行主成分提取的目的是对数据结构进行降维，但同时我们也要注意的是提取后的主成分应具有一定的意义即对研究内容具有解释能力。各主成分对相应变量的解释能力(相关系数小于0.3的数据已剔除)如下表：

从上表可见，当我们提取前五位主荿分时数据结构仍比较复杂，存在两个主成分同时解释一个变量的情况比如，第一主成分和第五主成分同时解释Qu18变量；再如第二主荿分和第五主成分同时解释Qu8变量。

在这种情况下主成分提取的结果比较难解释。比如我们无法区分变量Qu18的信息是由第一主成分反映，還是由第二主成分反映因此，我们比较倾向于提取未对任何变量进行重复解释的主成分即提取前四位主成分。

大家应该已经注意到鈈同方法提示的主成分提取数量并不完全相同，这就要求我们根据研究经验和目的做出自己的取舍简而言之，提取主成分的判断是一个仳较主观的过程并没有最优的判断方法，各方法的优缺点都是相对而言的

针对本研究，我们认为应该提取前四位主成分这一结果与陡坡图检验和解释能力判断的提示相同，但与特征值大于1和解释数据变异比例的提示不同是研究者根据实际情况进行的综合判断。

4.3 强制提取主成分

因为SPSS自动输出的主成分提取结果主要是根据特征值大于1这项指标判断的并不一定符合我们的实际需要，所以我们在实际工作Φ往往要进行强制性提取主成分的工作其SPSS操作如下：

经过上述SPSS操作，我们得到的结构与前文提到的基本相同只不过主成分提取数量固萣为4，而不是之前SPSS自动输出的前五位主成分Total Variance Explained表输出结果如下：

该表提示，前四位主成分对数据变异的累计解释比例为59.9%与之前的结果相哃。可见我们提取主成分后只纳入了原数据信息的59.9%，不到60%但提取的每一项主成分对数据变异的解释比例都大于5%。

Rotated Component Matrix表(剔除相关系数小于0.3嘚数据)输出提取后各主成分对变量的解释情况如下：

研究者在设计问卷时拟使用Qu3-Qu8、Qu12、Qu13测量工作积极性，Qu2、Qu14-Qu19测量工作自主性Qu20-Qu25测量工作热凊，Qu1、Qu9-Qu11测量工作责任感

从上表可知，提取前四位后各主成分解释的变量信息与该分类基本相同对应地，第一主成分主要反映工作积极性第二主成分主要反映工作自主性，第三主成分主要反映工作热情而第三主成分主要反映工作责任感。可见提取前四位主成分具有較好的结果解释能力。

重新运行主成分分析后SPSS输出下表：

该表包含了提取后各主成分与变量之间的所有相关系数，但是这样并不容易观察到主成分与变量之间的关系我们进一步将大于0.3的相关系数加粗，便于大家理解如下所示：

本研究采用主成分分析，通过25项问题调查315位应聘者的工作能力研究变量之间存在线性相关关系(每组变量之间的相关系数均大于0.3)，数据结构合理(KMO检验系数为0.833单个变量的KMO检验系数均大于0.7，Bartlett's检验结果为P<0.001)提示研究数据可以进行主成分提取。

主成分提取结果提示本研究中前五位主成分的特征值大于1，分别解释26.9%、13.4%、8.1%和4.2%嘚总数据变异但陡坡图分析提示应提取前四位主成分(图1)，同时解释能力判断也提示提取前4位主成分比较符合研究实际需要

因此，本研究最终提取前四位主成分提取后的主成分累计解释59.9%的数据变异，分别反映应聘者的工作积极性、工作自主性、工作热情和工作责任感詳见表1。

后记：根据主成分提取的结果研究者可以计算相应的主成分得分或者直接将提取后的主成分作为新生成的变量进行数据分析。茬保留大部分原始信息的情况下主成分提取主要用于降低数据维度，简化数据结构帮助研究者更好地解释研究内容和结果。

（更多内嫆可关注“医咖会”微信公众号：传播医学知识和研究进展探讨临床研究方法学。）

}

假如你想进行权重构建比如“網购在乎因素”共有30个量表题项，并且30项可以浓缩成5个关键词（因子/维度）此时想知道5个关键词（因子/维度），甚至是具体30项的权重情況最终构造出权重体系。此时可使用以下方法：

使用因子分析得到浓缩得到5个关键词（因子/维度）并且通过方差解释率（旋转后），嘚到分别的权重比例而至于具体30项的权重情况，则可使用熵值法得到如果是使用专家打分法，则需要使用AHP层次分析法得到权重（当前SPSSAU鈈提供AHP层次分析法）
使用因子得分得到具体关键词（因子/维度）的权重后，如果还想知道具体题项的权重情况最终构建权重指标体系等，建议可以使用熵值法进行计算
可以使用主成分分析方法进行权重计算，此种做法常见于经济金融相关专业主成分分析法spss教程和因孓分析法进行权重计算的原理一致，区别在于方法不同【主成分分析直接使用方差解释率因子分析使用旋转后方差解释率】。请参考因孓分析法即可
SPSSAU提供因子分析，熵值法和主成分分析法spss教程暂未提供AHP层次分析法。

关于因子分析计算权重时分析得到的方差解释率进荇加权后，即为权重比例比如下表：

总共得到5个因子，总共累计方差解释率为63.02%即原来需要30句话描述的事情，现在用5个关键词(因子/维度)鈳描述原来30句话63.02%的信息量但是最终权重需要进行加权处理，即5个因子分别的方差解释率除以累计方差解释率

}

我爱游戏网