每一次进入回归的自变量水平在0.15的水平下是显著的,为什么

自变量选择与逐步回归;一、全模型和选模型;设研究某一实际问题,涉及对因变量有影响的因素共有;如果从可供选择的m个变量中选出p个,由选出的p个;二、自变量选择对预测的影响;自变量选择对预测的影响可以分为两种情况考虑,第一;1、全模型正确而误用选模型的情况;性质1,在xj与xp?1,?,xm的相关系数不全;?)????(j?1,2,?,p)估计是全模型相;性质2
自变量选择与逐步回归
一、全模型和选模型
设研究某一实际问题,涉及对因变量有影响的因素共有m个,由因变量y和m个自变量构成的回归模型y??0??1x1??2x2????mxm??称为全模型。
如果从可供选择的m个变量中选出p个,由选出的p个自变量组成的回归模型y??0p??1px1??2px2????ppxpp??p称为选模型。
二、自变量选择对预测的影响
自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的影响。
1、全模型正确而误用选模型的情况
性质1,在xj与xp?1,?,xm的相关系数不全为0时,选模型回归系数的最小二乘
?)????(j?1,2,?,p) 估计是全模型相应参数的有偏估计,即E(?jpjpj
性质2,选模型的预测是有偏的。
性质3,选模型的参数估计有较小的方差。 性质4,选模型的预测残差有较小的方差。
性质5,选模型的均方误差比全模型预测的方差更小。
性质1和性质2表明,当全模型正确时,而舍去了m-p个自变量,用剩下的p个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其做预测,预测值也是有偏的。这是误用选模型产生的弊端。
性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测残差的方差下降了,这说明尽管全模型正确,误用选模型是有弊也有利的。
性质5说明,即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,丢掉这些变量之后,用选模型去预测,可以提高预测的精度。由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。
2、选模型正确而误用全模型的情况
全模型的预测值是有偏估计;选模型的预测方差小于全模型的预测方差;全模型的预测误差将更大。
一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本知道思想是少而精。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。因此,在建立实际问题的回归模型时,应尽可能剔除那些可有可无的自变量。 三、所有子集回归 1、所有子集的数目
设在一个实际问题的回归建模中,有m个可供选择的变量x1,x2,?,xm,由于
每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有2m-1个,这里-1是要求回归模型中至少包含一个自变量,即减去模型中只包含常数项的这一种情况。如果把回归模型中只包含常数项的这一种情况也算在内,那么所有可能的回归方程就有2m个。
从另一个角度看,选模型包含的自变量数目p有从0到m共有m+1种不同的情况,而对选模型中恰包含p个自变量的情况,从全部m个自变量中选p个的方
?Cm???Cm?2。 法共有线性组合Cmp个,因而所有选模型的数目为:Cm
2、关于自变量选择的几个准则
把选模型的残差平方和记为SSEp,当再增加一个新的自变量xp?1时,相应的残差平方和记为SSE
。根据最小二乘估计的原理,增加自变量时残差平方和将
减少,减少自变量时残差平方和将增加。因此有SSE
数分别为:Rp?1?SSE?1
,它们的负决定系
SST,Rp?1?SSE
由于SST是因变量的离差SST,
22平方和,与自变量无关,因而有Rp?Rp,即当自变量子集在扩大时,残差平?1
方和随之减少,而复决定系数R2随之增大。因此,如果按残差平方和越小越好的原则来选择自变量子集,或者为提高复决定系数,不论什么变量只要多取就行,则毫无疑问选的变量越多越好。这样由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差积累,参数数目的增加,将使估计值的误差增大。因此,从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的,还曾用负相关系数R来衡量回归拟合好坏都不能作为选择变量的准则。
准则一:自由度调整复决定系数达到最大。
当给模型增加自变量时,复决定系数也随之逐步增大,然而复决定系数的增大代价是残差自由度的减少,因为残差自由度等于样本个数与自变量个数之差。自由度小意味着估计和预测可靠性低。设Ra2?1?
(1?R)为自由度调整
后的复决定系数,其中,n为样本容量,p为自变量的个数。在实际问题的回归建模中,自由度调整复决定系数Ra2越大,所对应的回归方程越好。则所有回归子集中Ra2最大者对应的回归方程就是最优方程。
从另外一个角度考虑回归的拟合效果,回归误差项?2的无偏估计为:
?实际上就是用SSE,此无偏估计式中也加入了惩罚因子n-p-1,?
自由度n-p-1作平均的平均残差平方和。当自变量个数从0开始增加时,SSE逐渐减小,作为除数的惩罚因子n-p-1也随之减小。当自变量个数从0开始增加时,
?2先是开始下降然后稳定下来,当自变量个数增加到一定数量后,??2又开始增?
加。这是因为刚开始时,随着自变量个数增加,SSE能够快速减小,虽然作为除数的惩罚因子n-p-1也随之减小,但由于SSE减小的速度更快,因而??2是趋于减小的。当自变量数目增加到一定程度,应该说重要的自变量基本上都已经选上了,这时在增加自变量,SSE减少不多,以至于抵消不了除数n-p-1的减小,最终又导致了??2的增加。
用平均残差平方和??2和调整的复决定系数作为自变量选元准则实际上是等
?,?由于SST是与回归无关的固定值,因而Ra与??2是
价的。因为有Ra2?1?
等价的。??2小说明模型好,而??2小Ra2就会大也说明模型好。 准则二:赤池信息量AIC达到最小。
设模型的似然函数为L(?,x),?的维数为p,x为随即样本,则AIC定义为: AIC=-2lnL(??L,x)+2p,其中??L为?的极大似然估计;p为未知参数的个数,式中右边的第一项是似然函数的对数乘以-2,第二项惩罚因子是未知参数个数的2
倍。似然函数越大估计量越好,现在AIC是死然数的对数乘以-2再加上惩罚因子2p,因而选择使AIC达到最小的模型是最优模型。在回归分析的建模过程中,对每一个回归子集计算AIC,其中AIC最小者所对应的模型是最优回归模型。 准则三:Cp统计量达到最小
即使全模型正确,仍有可能选模型有更小的预测误差,Cp正是根据这一原理提出来的。Cp=(n?m?1)
,其中??2?
为全模型中
?的无偏估计。选择使Cp最小的自变量子集,这个自变量子集对应的回归方程
就是最优回归方程。 四、前进法
前进法的思想是变量由少到多,每次增加一个,直至没有可引入的变量为止。 具体做法是首先将去全部m个自变量,分别对因变量y建立m个一元线性回归方程,并分别计算这m个一元回归方程的m个回归系数的F检验值,记为
?,选其最大者记为
Fj?maxF1,F2,?,Fm,给定显著性水平?,
若Fj1?F?(1,n?2),则首先将xj引入回归方程,为了方便,设xj就是x1。
接下来因变量y分别与(x1,x2),(x1,x3),?,(x1,xm)建立m-1个二元线性回归方程,对m-1个回归方程中x2,x3,?,xm的回归系数进行F检验,计算F值,记为?F22,F32,?,Fm2?,选其最大者记为Fj2?max?F22,F32,?,Fm2?,若
Fj?F?(1,n?3),则接着将xj引入回归方程。
依照上述方法接着做下去,直至所有未被引入方程的自变量的F值均小于F?
(1,n-p-1)时为止,这时,得到的回归方程就是最终确定的方程。每步检验中的临界值F?(1,n-p-1)与自变量数目p有关,实际使用当中,通常使用显著性p值作检验。 五、后退法
后退法与前进法相反,首先用全部m个变量建立一个回归方程,然后在这m个变量中选择一个最不重要的变量,将它从方程中剔除,即把回归系数检验的F值最小者对应的自变量剔除。设对m个回归系数进行F检验(偏F统计量),记求得的F值为?F1m,F2m,?,Fmm?,选其最小者记为Fjm?min?F1m,F2m,?,Fmm?,给定显著性水平?,若Fjm?F?(1,n?m?1),则首先将xj从回归方程中剔除,为了方便,设xj就是xm。
接着对剩下的m-1个自变量重新建立回归方程,进行回归系数的显著性检验,项上面那样计算出Fjm?1,如果又有Fjm?1?F?(1,n?(m?1)?1),则剔除xj,重新建立y关于m-2个自变量的回归方程,依次下去,直至回归方程中所剩余的p个自变量的F检验值均大于临界值F?(1,n-p-1),没有可剔除的自变量为止。这时,得到的回归方程就是最终确定的方程。 六、前进法和后退法的比较
前进法和后退法显然都有明显的不足。前进法可能存在这样的问题,即不能反映引进新的自变量后的变化情况。因为某个自变量开始可能是显著的,但当引入其他自变量后它变得并不显著了,但是也没有机会将其剔除,即一旦引入,就是“终身制”的,这种只考虑引入,而没有考虑剔除的做法显然是不全面的。
后退法的明显不足是,一开始把全部自变量引入回归方程,这样计算量很大。如果有些自变量不太重要,一开始就不引入,就可减少一些计算量;再就是一旦某个自变量被剔除,“一棍子就把它打死了”,再也没有机会重新进入回归方程。
如果问题涉及的自变量x1,x2,?,xm是完全独立的(或不相关),那么在取
?进=?出时,前进法与后退法所建立的回归方程是相同的。然而在实际中很难碰
到自变量间真正无关的情况,尤其是经济问题中,所研究的绝大部分问题,自变
量间都有一定的相关性。这就会使得随着回归方程中变量的增加和减少,某些自变量对回归方程的影响也会发生变化。这是因为自变量间的不同组合,由于它们相关的原因,对因变量y的影响可能大不一样。如果几个自变量的联合效应对y有重要作用,但是单个自变量对y的作用都不显著,那么前进法就不能引入这几个变量,而后退法却可以保留这几个自变量,这是后退法的一个优点。 七、逐步回归法
逐步回归法的基本思想是有进有出。具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显著时,要将其删除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新的变量之前回归方程中包含显著的变量,这个过程反复进行,直到既无显著的自变量选入回归方程,也无不显著自变量从回归方程中剔除为止。
在逐步回归法中需要注意的一个问题是引入自变量和剔除自变量的显著性水平?值是不相同的,要求引入自变量的显著性水平?进小于剔除自变量的显著性水平?出,否则可能产生“死循环”。也就是当?进??出时,如果某个自变量的显著性p值在?进和?出之间,那么这个自变量将被引入、剔除,再引入、再剔除,循环往复,以至无穷。
实际当中是以p值为参照的,假设?进=0.1,?出=0.05,即?进&?出,引入变量x2时,其显著性p值为0.07,即在?进和?出之间,因为0.07小于?进,所以可以将变量引入方程,进入程序完毕,在进行检验删除,0.07大于?出,所以应该将刚引入的x2剔除。在进行显著性水平检验。再次引入x2,又剔除x2,如此循环。如果是?进=0.05,?出=0.1就不会出现这种情况了。
八、选择回归子集
选择哪一个回归子集,用哪一个衡量准则要根据研究问题的目的来决定,回归模型常用的三个方面是:结构分析,预测,控制。如果想通过回归模型去研究经济变量之间的相关联系,即做结构分析,则在选元时可以考虑适当放宽选元标准,给回归方程中保留较多的自变量,但这时需要注意回归系数的正负号,看它们是否符合经济意义。如果希望回归方程简单明了,易于理解,则应该采用较严的选元标准。比如在逐步回归选元中,给显著性水平?进赋一个较小的值,就可使得回归方程中保留较少最重要最能说明问题的自变量。 如果建立回归方程的目的是为了用于控制,那么就应采取能使回归参数的估计标准误差尽可能小的准则。如果建立回归方程的目的是用于预测,就应该考虑使得预测的均方误差尽量小的准则,如Cp准则。
三亿文库包含各类专业文献、中学教育、专业论文、生活休闲娱乐、外语学习资料、各类资格考试、应用写作文书、高等教育、15自变量选择与逐步回归等内容。 
 变量选择与逐步回归 1 在建立回归模型时,对自变量进行筛选 2 选择自变量的原则是对统计量进行显著性检验 (1) 将一个或一个以上的自变量引入到回归模型中时, ...  因此在多元回 归模型中,选择适宜的变量数目尤为重要。 逐步回归在病虫预报中的应用实例: 以陕西省某地区
年的烟蚜传毒病情资料、相关虫 情和气象资料...  线性回归模型的自变量选择就是用于有众多自变量 时识别重要自变量的方法。用于线性回归模型自变量选择的方法可分为两类:全局 择优法和逐步回归法。 一、全局择优法 ...  自变量选择的 问题, 证明了自变量子集可丢弃的充要条件, 并讨论了当设计阵是列正交时最 优回归模型的求法; 郑忠国(1991) 利用多重假设检验理论找到逐步回归中选...  逐步回归分析_数学_自然科学_专业资料。逐步回归分析字体 [大] [中] [小] 逐步回归是多元回归中用以选择自变量的一种常用方法。本条目重点介绍的是一种“向 前...  逐步回归分析是分别把每一个变量都选入模型中, 每次都保留系数显著水平最高的那个变量,剔除不显著的变量,通过多次的选入和剔除最终 得到系数的显著的回归方程。 ...  逐步回归在建立多元回归方程的过程中, 按偏相关系数的大小次序将自变量逐个引入方程, 对引 入方程中的每个自变量偏相关系数进行统计检验, 效应显著的自变量留在回归...  逐步回归分析_数学_自然科学_专业资料。基于逐步回归法的产品销售量分析模型 摘要:本文根据 2010 年统计年鉴数据,研究影响某种产品销售量的因素,所选自变量因素 包括...  (3)逐步回归 逐步回归方法 1:初始模型选择全部自变量 xx=data(:,2:7); y=data(:,8); %输入原始自变量数据,为 x1-x7,第一列不需要 1 %输入因变量 Y ...扫二维码下载作业帮
1.75亿学生的选择
下载作业帮安装包
扫二维码下载作业帮
1.75亿学生的选择
两个变量X和Y的数据,计算X与Y之间的回归方程X:1 2 3 4 5,Y:3 7 5 11 14,建立X与Y之间的回归方程.当X=4时,预测Y等于多少
哔哔◇00348
扫二维码下载作业帮
1.75亿学生的选择
x y lm(y~x)Call:lm(formula = y x)Coefficients:(Intercept) x 0.2 2.6 y=2.6x+0.2当x=4 y=10.6
为您推荐:
其他类似问题
扫描下载二维码您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
spss第十五讲回归综述.ppt 107页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
需要金币:350 &&
你可能关注的文档:
··········
··········
第十讲回归分析、线性回归和曲线估计第一部分上一讲回顾第二部分回归分析第三部分线性回归第四部分曲线估计第一部分第十讲回顾在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度的指标称为偏相关系数。偏相关分析的公式表达相关分析的命令语句PARTIALCORR/VARIABLES=身高肺活量BY体重/SIGNIFICANCE=TWOTAIL/STATISTICS=DESCRIPTIVESCORR/MISSING=LISTWISE.结果分析一、描述性统计量相关系数零阶相关矩阵关系距离分析距离分析的概念距离分析:对观测量之间或变量之间相似或不相似程度的一种测度,是计算一对变量之间或一对观测量之间的广义的距离。在距离分析过程中,主要利用变量间的相似性测度(Similarities)和不相似性测度(Dissimilarities)度量两者之间的关系距离分析命令语句PROXIMITIES身高体重肺活量/VIEW=VARIABLE/MEASURE=CORRELATION/STANDARDIZE=NONE.结果分析距离分析的个案处理摘要距离分析的相似性矩阵什么是回归分析?1、重点考察一个特定的变量(因变量),而把其他变量(自变量)看作是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来2、利用样本数据建立模型的估计方程3、对模型进行显著性检验4、进而通过一个或几个自变量的取值来估计或预测因变量的取值回归分析的模型一、分类按是否线性分:线性回归模型和非线性回归模型按自变量个数分:简单的一元回归和多元回归二、基本的步骤利用SPSS得到模型关系式,是否是我们所要的?要看回归方程的显著性检验(F检验)回归系数b的显著性检验(T检验)拟合程度R2(注:相关系数的平方,一元回归用RSquare,多元回归用AdjustedRSquare)回归分析的过程在回归过程中包括:Liner:线性回归CurveEstimation:曲线估计BinaryLogistic:二分变量逻辑回归MultinomialLogistic:多分变量逻辑回归;Ordinal序回归;Probit:概率单位回归;Nonlinear:非线性回归;WeightEstimation:加权估计;2-StageLeastsquares:二段最小平方法;OptimalScaling最优编码回归我们只讲前面2个简单的(一般教科书的讲法)第三部分线性回归线性回归分为一元线性回归和多元线性回归。一、一元线性回归:1、涉及一个自变量的回归2、因变量y与自变量x之间为线性关系被预测或被解释的变量称为因变量(dependentvariable),用y表示用来预测或用来解释因变量的一个或多个变量称为自变量(independentvariable),用x表示3、因变量与自变量之间的关系用一个线性方程来表示线性回归的过程一元线性回归模型确定过程一、做散点图(Graphs-&Scatter-&Simple)目的是为了以便进行简单地观测(如:Salary与Salbegin的关系)。二、建立方程若散点图的趋势大概呈线性关系,可以建立线性方程,若不呈线性分布,可建立其它方程模型,并比较R2(--&1)来确定一种最佳方程式(曲线估计)。多元线性回归一般采用逐步回归方法-Stepwise。(一)一元线性回归模型 (linearregressionmodel)1、描述因变量y如何依赖于自变量x和误差项?的方程称为回归模型2、一元线性回归模型可表示为y=b0+b1x+e注:线性部分反映了由于x的变化而引起的y的变化;误差项?反映了除x和y之间的线性关系之外的随机因素对y的影响,它是不能由x和y之间的线性关系所解释的变异性。一元线性回归模型(基本假定)1、因变量x与自变量y之间具有线性关系2、在重复抽样中,自变量x的取值是固定的,即假定x是非随机的3、误差项?满足条件误差项?满足条件正态性。?是一个服从正态分布的随机变量,且期望值为0,即?~N(0,?2)。对于一个给定的x值,y的期望值为E(y)=?0+?1x方差齐性。对于所有的x值,?的方差一个特定的值,的方差也都等于2都相同。同样,一个特定的x值,y的方差也都等于?2独立性。独立性意味着对于一个特定的x值,它所对应的ε与其他x值所对应的ε不相关;对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关估计的回归方程 (estimatedregressionequation)(二)参数的最小二乘估计德国科学家KarlGauss()提出用最小化图中垂直方向的误差平方和来估计参数使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。即KarlGauss的最小化图参数的最小二乘估计 (和的计算公式)(三)回
正在加载中,请稍后...君,已阅读到文档的结尾了呢~~
SAS学习系列24 逐步回归.
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
SAS学习系列24 逐步回归.
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer--144.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口}

我要回帖

更多关于 哑变量回归 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信