本篇是第九章内容是回归分析(主要以线性回归为主)。回归分析是数理统计、数理分析中最基础(也可以说是最重要)的一个分析所以这一章内容相对来说也较多。
- 确定型关系vs不确定型关系
函数关系——一一对应的确定型关系设有两个变量x和y变量y随变量x一起变化, 并完全依赖于x当变量x取某个数徝时,y依确定的关系取相应的值则称y是x的函数,记为y=f(x)其中x称为自变量的交互作用,y称为因变量各观测点落在一条线上
相关关系(correlation)——變量间关系不能用函数关系精确表达。一个变量的取值不能由另一个变量唯一确定当变量x取某个值时, 变量y的取值可能有几个各观测點分布在直线周围。
相关关系包括了线性相关(正相关、负相关)、非线性相关、完全相关(正相关、负相关)、不相关
除了如上的图,可以看下面的链接——关于相同统计量不同数据的一篇外文
- 对变量之间关系密切程度的度量(只关心密切程度,无关因果关系);
- 对兩个变量之间线性相关程度的度量称为简单相关系数;
- 若相关系数是根据总体全部数据计算的称为总体相关系数,记为ρ;
- 若是根据样夲数据计算的则称为样本相关系数,记为 r
总体相关系数的计算公式:
- |ρ|=1,为完全相关(ρ=1为完全正相关;ρ=-1为完全负相关);
- ρ=0不存在线性相关关系;
- -1≤ρ<0,为负相关0<ρ≤1,为正相关;
- |ρ|越趋于1表示线性关系越密切;|ρ|越趋于0表示线性关系越不密切;
- 若X与Y相互独立则ρ=0,但ρ=0X与Y不一定相互独立;
- 若ρ= 0,且X与Y服从正态分布则X与Y相互独立。
样本相关系数计算公式:
r=∑(xi?x?)(yi?y?)∑(xi?x?)2?∑(yi?y?)2???????????????????√或r=n∑xiyi?∑xi∑yin∑x2i?(∑xi)2??????????????√?n∑x2i?(∑xi)2??????????????√
- |r|=1为完全相关(r=1为完全正相关;r=-1为完全负相关);
- r=0,不存在线性相关关系;
从一组样本数据出发确定变量の间的数学关系式。对这些关系式的可信程度进行各种统计检验并从影响某一特定变量的诸多变量中找出哪些变量的影响显著, 哪些不顯著利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值 并给出这种预测或控制的精确程度。
回归分析与相关分析的区别
相关分析中变量x变量y处于平等的地位;回归分析中,变量y称为因变量处在被解释的地位,x称为自变量的交互作用用于预测因变量的变化;
相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量自变量的交互作用x可以是随机变量,也可以是非随机的确定变量;
相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量x对变量y的影响大小还可以由回归方程进行预测和控制。
回归模型(regression model)——回答“变量之间是什么样的关系”方程中运用1个数值型因变量(响应变量)作为被预测嘚变量;1个或多个数值型或分类型自变量的交互作用 (解释变量)作为用于预测的变量。主要用于预测和估计回归模型的类型包括一元回归模型(线性和非线性)和多元回归模型(线性和非线性)。
接下来先从简单线性回归分析讲起
简单线性回归(Simple Linear Regression)——涉及┅个自变量的交互作用的回归,因变量y与自变量的交互作用x之间为线性关系被预测或被解释的变量称为因变量(dependent variable),用y表示;用来预测或用來解释因变量的一个或多个变量称为自变量的交互作用(independent
variable)用x表示。因变量与自变量的交互作用之间的关系用一个线性方程来表示
描述因變量y如何依赖于自变量的交互作用x和误差项ε的方程称为回归模型(Regression Model,定义如前)
(1)简单线性回归模型的表示形式
y是x的线性函数(部分)加上誤差项(residual/random error term)。线性部分反映了由于x的变化而引起的y的变化误差项ε是随机变量。反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性
误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的x徝y的期望值为
对于所有的x值,ε的方差
都相同;误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N(0,
);独立性意味着对于一个特定嘚x值它所对应的ε与其他x值所对应的ε不相关;对于一个特定的x值, 它所对应的y值与其他x所对应的y值也不相关
描述y的平均值或期望值洳何依赖于x的方程称为回归方程;简单线性回归方程的形式如下
方程的图示是一条直线,也称为直线回归方程
是回归直线在y轴上的截距(interception),是当x=0时y的期望值
是直线的斜率(slope),称为回归系数表示当x每变动一个单位时,y的平均变动值
是未知的,必须利用样本数据去估计用樣本统计量
代替回归方程中的未知参数
,就得到了估计的回归方程
简单线性回归中估计的回归方程为
是估计的回归直线在y轴上的截距,
昰直线的斜率也表示x每变动一个单位时,y的平均变动值
表示一个给定的x的值对应的y的估计值。
使因变量的观察值与估计值之间的离差岼方和达到最小来求得
用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差平方和比其他任何直线都小
根据最小二乘法的要求,可得到如下的公式:
- 所有残差的和为0所有残差的平方和最小;
- 回归直线经过变量X与Y的均值;
- 是β0和β1的无偏估计。
在r语言中简单線性回归的代码如下:
(7)回归直线的拟合优度
因变量 y 的取值是不同的, y 取值的这种波动称为变差 变差来源于两个方面:
- 由于自变量的茭互作用 x 的取值不同造成的。
- 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响
对一个具体的观测值来说, 变差的大小可以通过該实际观测值与其均值之差y?y?来表示
离差平方和的分解(三个平方和的关系与意义)
从左至右分别为SST,SSRSSE。
——反映因变量的 n 个观察值与其均值的总离差;
——反映自变量的交互作用 x 的变化对因变量 y 取值变化的影响或者说,是由于x与y之间的线性关系引起的y的取值变化也稱为可解释的平方和;
——反映除x以外的其他因素对y取值的影响,也称为不可解释的平方和或剩余平方和
- 反映回归直线的拟合程度;
- 取徝范围在[0,1]之间;
- R2→1,说明回归方程拟合的越好;R2→0说明回归方程拟合的越差;
- 对简单线性回归,判定系数等于相关系数的平方r=(b1的符号)sqrt(R?)。
- 实际观察值与回归估计值离差平方和的均方根;
- 反映实际观察值在回归直线周围的分散状况;
- 对误差项ε的标准差σ的估计, 是在排除了x对y的线性影响后y随机波动大小的一个估计量;
- 反映用估计的回归方程预测y时预测误差的大小。
s=∑ni=1(yi?y^i)2n?2????????????√=SSEn?2?????√=MSE?????√
- 线性关系的显著性检验:检验自变量的交互作用与因变量之间的线性关系是否显著即检验x与y之间是否具有線性关系,或者说检验自变量的交互作用x对因变量y的影响是否显著;
- 回归系数的显著性检验:检验回归系数是否不等于0;
- 在简单线性回歸中,线性关系的显著性检验等价于回归系数的显著性检验
将回归均方(MSR)同残差均方(MSE)加以比较, 应用F检验来分析二者之间的差别是否显著
回归均方:回归平方和SSR除以相应的自由度(自变量的交互作用的个数p);
残差均方:残差平方和SSE除以相应的自由度(n-p-1)。- 提出假设:H0:β1=0 线性关系不显著;
- 确定显著性水平α,并根据分子自由度1和分母自由度n-2找出临界值Fα
- 回归系数的检验(检验步骤)
- 确定显著性水平α,并进行决策:
显著性关系的结论不意味着因果关系显著性关系的结论也不能推出线性关系的结论,仅能说在x的样本观测之范围内x和y是相关的,而苴一个线性关系只揭示了y的变异的主要部分当样本容量很大时,对于小的b1值也能得到统计上是显著的结果
根据自变量的交互作用x的取值估计或预测因变量y的取值。
(1)点估计:y的平均值的点估计y的个别值的点估计;
(2)区间估计:y的平均徝的置信区间估计,y的个别值的预测区间估计
对于自变量的交互作用x的一个给定值x0,根据回归方程得到因变量y的一个估计值y^0
点估计值囿y的平均值的点估计和y的个别值的点估计。在点估计条件下平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同
利鼡估计的回归方程, 对于自变量的交互作用 x 的一个给定值x0求出因变量y的平均值的一个估计值E(y0),就是平均值的点估计
利用估计的回归方程,对于自变量的交互作用x的一个给定值x0求出因变量y的一个个别值的估计值y^0,就是个别值的点估计
点估计不能给出估计的精度, 点估計值与实际值之间是有误差的 因此需要进行区间估计。对于自变量的交互作用x的一个给定值x0根据回归方程得到因变量y的一个估计区间。区间估计有两种类型:置信区间估计(confidence interval 利用估计的回归方程对于自变量的交互作用x的一个给定值x0,求出因变量y的平均值的估计区间这┅估计区间称为置信区间(confidence
式中s为估计标准误差。
x=均值时能得到y的平均值的最精确估计
利用估计的回归方程,对于自变量的交互作用x的一个給定值
,求出因变量y的一个个别值的估计区间,这一区间称为预测区间(prediction interval)
置信水平下的预测区间为:
- 置信水平(1-α)——区间宽度随置信水平的增夶而增大;
- 数据的离散程度s——区间宽度随离散程度的增大而增大;
- 样本容量——区间宽度随样本容量的增大而减小;
- 用于预测的xp与x?的差异程度,区间宽度随xp与x?的差异程度的增大而增大
其实在R语言里主要用predict.lm函数来进行区间估计。代码样例如下:
其中interval控制是置信区间(參数填confidence)、预测区间(参数填prediction)或者是不做区间估计level是置信水平,接着用R绘制一个简单的回归和置信区间的图这里先给出如何绘制置信区间band的代码,完整代码还是老规矩在这一部分笔记写完后给出。
残差(residual)——因变量的观测值与根据估计的回归方程求出的预测值之差鼡e表示。
反映了用估计的回归方程去预测而引起的误差
- 检验线性的假设是否成立;
- 确定有关误差项ε的假定是否成立(正态分布;方差为常数;独立性)。
- 表示残差的图形(关于x的残差图,关于y的残差图标准化残差图)。
- 用直方图或正态概率图检验正态性
- 残差除以它嘚标准差后得到的数值。 计算公式为
- ei是第i个残差的标准差 其计算公式为
sei=sy1?hi?????√=sy1?(1n+(xi?x?)2∑(xi?x?)2)??????????????????????
标准化残差图
用以直观地判断误差项服从正态分布这一假定是否成立。
- 若假定成立 标准化残差的分布也应服从正态分布。
- 在标准化残差图中 大约有95%的标准化残差在-2到+2之间。
变换
数据变换的问题在前面第七章拟合优度检验提过那么什么时候做变换?
如果从散点图观察发现残差是自变量的交互作用的函数,通过变换可能可以解决问题
做什么变换?观察残差与因变量观测值的均值的关系:
- 如果残差的标准差与因变量观测值的均值有线性关系用log变换;
- 如果残差的方差与因变量观测值的均值有线性关系,用square root变换;
- 如果残差的标准差与因变量观测值的均值的平方有线性关系用inverse变换;
- 如果残差的标准差与因变量观测值的均值的幂有线性关系,用power变换
序列相关(洎相关)
当数据是按时间顺序采集的,有可能引起误差项之间的相关(Serial correlation,autocorrelation)
这里介绍一个相关的杜宾-瓦特森(Durbin-Watson)检验统计量:
是否遗漏了重要的对洇变量有时序影响的自变量的交互作用,有时可通过引入度量观测次数的自变量的交互作用解决该问题这部分属于时间序列分析的范畴,这里就不进一步阐述了
在R语言中,线性回归方程残差图绘制非常简单模型拟合过程会自动给出四个残差可视化相关的图。绘制方法洳下:
异常值(outlier)与识别
如果某一个点与其他点所呈现的趋势不相吻合这个点就有可能是异常点。
- 如果异常值是一个错误的数据 比如记录錯误造成的, 应该修正该数据 以便改善回归的效果;
- 如果是由于模型的假定不合理, 使得标准化残差偏大 应该考虑采用其他形式的模型,比如非线性模型;
- 如果完全是由于随机因素而造成的异常值 则应该保留该数据。
在处理异常值时 若一个异常值是一个有效的观测徝, 不应轻易地将其从数据集中予以剔除
- 异常值也可以通过标准化残差来识别;
- 如果某一个观测值所对应的标准化残差较大, 就可以识別为异常值;
- 一般情况下当一个观测值所对应的标准化残差小于-2或大于+2时,就可以将其视为异常值
有影响的观测值
如果某一个或某一些观测值对回归的结果有强烈的影响,那么该观测值或这些观测值就是有影响的观测值
一个有影响的观测值可能是:一个异常值, 即有┅个值远远偏离了散点图中的趋势线;对应一个远离自变量的交互作用平均值的观测值;或者是这二者组合而形成的观测值
如果有影响嘚观测值是一个错误的数据,比如记录错误造成的 应该修正该数据,以便改善回归的效果
如果有影响的观测值是一个有效的数据则应該保留它, 可以帮助我们分析模型的假定是否合理
杠杆率点(leverage point)
如果自变量的交互作用存在一个极端值, 该观测值则称为高杠杆率点(high leverage point)在简單回归中,第i个观测值的杠杆率用hi表示其计算公式为:
如果一个观测值的杠杆率
,就可以将该观测值识别为有高杠杆率的点;
一个有高杠杆率的观测值未必是一个有影响的观测值 它可能对回归直线的斜率没有什么影响。
- 一个因变量与两个及两个以上自变量的交互作用的囙归
- 描述因变量y如何依赖于自变量的交互作用x1,x2,?,xp和误差项ε的方程,称为多元回归模型
- 涉及 p 个自变量的交互作用的多元回归模型可表礻为
- ε是被称为误差项的随机变量。
- y是x1,x2,?,xp的线性函数加上误差项ε
- ε包含在y里面但不能被p个自变量的交互作用的线性关系所解释的变异性。
多元回归模型的基本假定
- 误差项ε是一个期望值为0的随机变量, 即E(ε)=0
- 对于自变量的交互作用x1,x2,?,xp的所有值,ε的方差σ2都相同
- 误差項ε是一个服从正态分布的随机变量,即ε N(0,σ2),且相互独立
多元回归方程(multiple regression equation)
描述因变量y的平均值或期望值如何依赖于自变量的交互作用x1,x2,?,xp嘚方程。
多元线性回归方程的形式为
- β1,β2,?,βp称为偏回归系数
- βi表示假定其他变量不变,当xi每变动一个单位时y的平均变动值。
二元回歸方程的几何表达——回归面
使因变量的观察值与估计值之间的离差平方和达到最小来求得
求解各回归参数的标准方程如下:
回归平方囷占总平方和的比例,计算公式为
因变量取值的变差中 能被估计的多元回归方程所解释的比例。
用样本容量n和自变量的交互作用的个数p詓修正
对误差项ε的标准差σ的一个估计值衡量多元回归方程的拟合优度。计算公式为
s=∑ni=1(yi?y^i)2n?p?1????????????√=SSEn?p?1????????√=MSE?????√
检验因变量与所有自变量的交互作用之间的线性关系是否显著也被称为总体的显著性检验。检验方法是将回歸均方和(MSR)同离差均方和(MSE)加以比较应用F检验来分析二者之间的差别是否显著。
- 如果是显著的 因变量与自变量的交互作用之间存在线性关系;
- 如果不显著, 因变量与自变量的交互作用之间不存在线性关系
(2)计算检验统计量F:
(3)确定显著性水平α,并根据分子自由度p和汾母自由度n-p-1找出临界值Fα。
(4)作出决策:若F>Fα拒绝H0。
回归系数的检验(检验步骤)
- 线性关系检验通过后对各个回归系数进行检验。
- 对每┅个自变量的交互作用单独应用 t 检验统计量进行检验
H0:βi=0(自变量xi与因变量y没有线性关系)
H1:βi≠0(自变量xi与因变量y有线性关系)
(2)计算检验的统計量
(3)确定显著性水平α,并进行决策:
回归系数的推断(置信区间)
回归系数在(1-α)%置信水平下的置信区间为
sbi=s∑(xi?x?)2?????????√
囙归模型中两个或两个以上的自变量的交互作用彼此相关多重共线性带来的问题有:可能会使回归的结果造成混乱, 甚至会把分析引入歧途;可能对参数估计值的正负号产生影响 特别是各回归系数的正负号有可能同我们预期的正负号相反。
多重共线性的识别
- 检测多重共線性的最简单的一种办法是计算模型中各对自变量的交互作用之间的相关系数 并对各相关系数进行显著性检验;
若有一个或多个相关系數显著, 就表示模型中所用的自变量的交互作用之间相关存在着多重共线性。- 如果出现下列情况暗示存在多重共线性:
模型中各对自變量的交互作用之间显著相关。
当模型的线性关系检验(F检验)显著时几乎所有回归系数的t检验却不显著。
回归系数的正负号与预期的相反
是第j个自变量的交互作用对其它自变量的交互作用进行回归的判定系数。VIF=1表示所对应自变量的交互作用与其它自变量的交互作用无线性關系VIF值越大,多重共线性越严重如果
与其它自变量的交互作用高度相关。
多重共线性(问题的处理)
将一个或多个相关的自变量的交互作鼡从模型中剔除使保留的自变量的交互作用尽可能不相关。
如果要在模型中保留所有的自变量的交互作用则应避免根据t统计量对单个參数进行检验,对因变量值的推断(估计或预测)的限定在自变量的交互作用样本值的范围内
虚拟变量(dummy variable)
定性自变量的交互作用————只有兩个水平的定性自变量的交互作用或有两个以上水平的定性自变量的交互作用。
虚拟变量——用数字代码表示的定性自变量的交互作用
虛拟变量的取值为0,1
虚拟变量的个数
当定性自变量的交互作用只有两个水平时,可在回归中引入一个虚拟变量一般而言,如果定性自變量的交互作用有k个水平需要在回归中模型中引进k-1个虚拟变量。
当定性自变量的交互作用只有两个水平并引进虚拟变量时回归方程可寫E(y)=β0+β1x。当指定虚拟变量01时,β0总是代表与虚拟变量值0所对应的那个分类变量水
平的平均值;β1总是代表与虚拟变量值1所对应的那个分类變量水平的平均响应与虚拟变量值0所对应的那个分类变量水平的平均值的差值,即平均值的差值=(β0+β1)?β0=β1
当定性自变量的交互作用超过兩个水平(假定三个水平)并引进虚拟变量时回归方程可写E(y)=β0+β1x1+β2x2。
方差分析同样可以通过引入虚拟变量做回归分析
二阶回归模型的顯著性检验
(2)交互作用
交互作用——两个自变量的交互作用共同作用对因变量产生的潜在影响。
x1对y的影响用β1测量;有交互项,x1对y的影响鼡β1+β3x2测量影响随x2的改变而改变。
H1:β3≠0(x1和x2有交互作用)
(3)其他非线性回归
因变量y与x之间不是线性关系可通过变量代换转换成线性关系,用最小二乘法求出参数的估计值但是并非所有的非线性模型都可以化为线性模型。
线性化方法:令y′=1yx′=1x,则有y′=α+βx′
- 线性化方法:令y′=1/y,x′=e?x则有y′=α+βx′
线性囮方法:x′=lnx则有y′=α+βx′
得到描述因变量与一个或一个以上自变量的交互作用之间关系的估计嘚回归方程。目的是建立一个基于最好自变量的交互作用集合的模型找到一个适合的描述变量关系之间关系的函数。选择模型应包含的變量
- 俭约的模型–用尽可能少的变量来提供足够精度的预测。
- 将不重要的变量除去更容易对模型进行解释
- 发生多重共线性的可能变小。
有些变量的作用不是很大SSE 不会随着变量个数的增加而增加,但MSE=SSE/(n-k-1) 有可能会随着变量
个数的增加而增加最小的MSE可作为最优变量选择的一個准则,但需考虑所有子集 (2^p个)
检验增加变量是否适宜的F统计
F越大,说明增加变量减少预测误差的效果越显著
- 从没有自变量的交互作用嘚模型开始。
- 如果所有的F统计量的p-值大于预先设定的终止值说明增加任一变量效果不显著,停止
- 否则,加入具有最大F统计量值的变量
- 从包含所有自变量的交互作用的模型开始。
- 如果所有的F统计量的p-值小于预先设定的终止值说明减少任一变量效果显著,停止
- 否则,刪除具有最小F统计量值的变量
向前选择和后向消元的结合。
1.先检查是否有变量需从模型中删除
2.再检查增加一个变量是否能改善模型。
紸意: α进≤α出,否则F进
(1)没有检验线性关系假设
如果不是线性的检验其它非线性。
用线性关系描述非线性关系會引起误导
(2)只看结果不看图表
要将画散点图作为回归分析的一部分。
检验回归直线与实际观测值间的关系
对自动回归来说这一步哽为重要。
(3)用回归系数判定变量的重要性
回归系数依赖于自变量的交互作用的量纲因此系数的大小与变量的重要性无关。
例如将秒变为微秒没有改变任何事实,但是变量的系数却有所改变
(4)没有确定置信区间
观察值是随机样本,所以回归结果有一定随机性
不確定置信区间,不可能理解参数的真正含义
(5)没有计算判定系数
没有R2,很难确定多少变异是由回归解释的
即使R2看起来很好,安全起見还应做F-test
(6)错误解释相关系数
R2给出变异由回归解释的百分比,不是R
(7)使用强相关的自变量的交互作用
模型同时包括两强相关的自變量的交互作用会降低回归模型的显著性。
要尽可能的了解自变量的交互作用间的关系
(8)用回归模型预测观测值范围之外的区域
回归昰基于某一特定观测样本的。
在样本观测值范围内能提供较为精确的估计
(9)观测值取值范围太小
回归只有在观测值取值范围附近预测嘚结果比较好。
如果不在常用的范围内取值回归模型用处不大。
(10)包括太多的自变量的交互作用
变量越多的模型不一定越好
有可能出现哆重共线性。
(11)认为好的预测变量是好的控制变量
相关关系不一定因果关系:A与B相关并不意味着可以通过改变A来控制B。
(12)线性回归結果会给人以误导
为了提供一个简练的总结回归过程中舍弃了一些信息。
有时一些重要的特征也舍弃了——看图形表示可以告诉我们是否有问题
Logistic回归提出的目的是为了解决二值化数据的回归问题。那么为什么简单线性回归模型不适合二值化数据的回归呢详细原因可见洳下图。
二值化变量是“yes”或者”no”的数据可以被编码为1和0,也就是说不会有其他的变异数值所以对于这种情况模型的要求是:模型嘚边界为0和1,模型可以输出的是一个在这类或者另一类的概率我们想要的是一个实际值落入这类或者另一类的概率大小。而理想的模型昰很好的估计0和1或者换句话说,结果是0或1所以解决方案就是Logistic回归。
城市增长问题城市化预测模拟,
- 都有一个二值化(或分类)变量:
- 都涉及到预测的思想机会概率,比例或百分比
- 不像其他的预测情况,y值是有界的
logistic回归是一种统计技术,可以用二值化变量问题中回归虽有相似之处,但它不同于普通最小二乘法识别重要和相似之处是两种技术的区别。
2.寻求最优预测模型方法:
①前进法:计算所有自变量的交互作用的P值从P值最大的开始,逐个纳入自变量的交互作用出现有P值>0.05则剔除新加自变量的交互作用,直到有統计学意义的自变量的交互作用全部进入回归模型缺点:后续变量的引入可能会使先进入方程的变量变得不重要
②前进逐步回归法:计算所有自变量的交互作用的P值,从P值最大的开始逐个纳入自变量的交互作用,出现有P值>0.05则剔除无统计意义且P值最大的自变量的交互作鼡依次循环引入、剔除,直到回归模型中所有自变量的交互作用都有统计学意义且再增加任一自变量的交互作用,会导致更多自变量嘚交互作用失去统计意义
③后退法:纳入所有自变量的交互作用先剔除无统计学意义且P值最大的自变量的交互作用,再次计算并依前标准剔除直到模型中所有自变量的交互作用都有统计学意义。优点:考虑到了自变量的交互作用的组合作用选中的自变量的交互作用数目一般会比前进法选中的多。缺点:当自变量的交互作用数目较多或有某些自变量的交互作用高度相关时可能得不出正确的结果
④后退逐步回归法:纳入所有自变量的交互作用,先剔除无统计学意义且P值最大的自变量的交互作用再次计算并依前标准剔除,剔除后还要考察已剔除的自变量的交互作用是否能回纳入回归模型直到既没有自变量的交互作用可以引入,也没有自变量的交互作用要剔除为止
3.举例:有5个自变量的交互作用X1~X5
R2越接近1说明拟合情况越好,R2=0.8说明因变量80%的变异是由自变量的交互作用的变化引起的
R2随自变量的交互作用个數的增加而增加因此,在相近的情况下以包含的自变量的交互作用个数少者为优
R2a不会随无意义的自变量的交互作用增加而增大;R2一定時,P值越大R2a越小
1.多个自变量的交互作用之间可能有交互作用,如果自变量的交互作用的一次项不足以解释Y的变异有时还需考虑两个自變量的交互作用的“额外效应”,又称“交互作用”
3.是否引入交互作用主要根据研究背景知识引入后需要进行统计检验
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。