试在p值和显著性水平平 是否有相同协方差矩阵

重复测量数据的分析方法(裂区试验、调和GG法、混合线性模型)
已有 222 次阅读
|个人分类:|系统分类:|关键词:重复测量数据 裂区试验 混合线性模型
重复测量数据的分析方法这里主要介绍了重复测量数据的分析方法,分别是:一般线性模型:方差分析:这里采用了裂区试验的分析方法矫正方差分析:通过Greeenhouse-Geisser法对裂区方差分析的F值进行矫正多元分析:条件不满足时可以通过多元分析的方法进行分析混合线性模型:协方差结构:Uniform correlation协方差结构:Changing variance model with time协方差结构:Unstructured协方差结构: Antedependence order 1协方差结构: Antedependence order 2协方差结构:AR order 1协方差结构:AR order 2协方差结构:Power model (City-block metric) 模型之间的比较(AIC、BIC、LRT检验)重复测量(repeatedmeasurements)一种测量方法.指对一些个体在短时间内进行次数不多的同类型的测量。 重复测量和随机区组的区别:重复测量数据在形式上与随机区组设计资料相似(每一个受试者可以看做一个区组),但是两者有着根本的区别。因为区组内部是随机分布的,而且彼此之间相互独立。但是重复测量的观测值之间(无论是不同时间,还是同一小区不同植株)不是独立的,彼此之间是有关联的。 球对称(sphericity):若重复测量资料满足球对称(sphericity)的假定,可以采用随机区组或者裂区试验的方差分析进行分析,否则,则需要采用其它方法或者对F值进行校正。 球对称的实质:协方差矩阵的球对称性是指该矩阵主对角线元素(即方差)相等,非主对角线元素(即协方差)为0,这种矩阵说明观测值之间没有相关性,这也是一元方差分析方法的方差齐性的基本假定不满足球形检验怎么办?但是如果数据不满足球对称性的话,一元方差分析的结果是有偏的,会增大I类错误的概率,这时就需要使用多元分析方法或者对和时间有关的F统计量的自由度进行校正,校正的常用方法有1.Greeenhouse-Geisser法:简称G-G法2.Huynh-Feldt法:简称H-F法3.Lower-bound法:简称L-B下界法 更高级的方法:混合线性模型还有一种应用范围更为广泛的方法是混合线性模型分析重复测量数据,它可以选择协方差结构对重复测量资料的固定效应和随机效应参数及协方差矩阵进行参数估计和统计检验,混合线性模型是处理重复测量资料的有力方法,它对资料的协方差结构要求宽松,且结论可靠。而单因素方差分析对资料的协方差结构有严格的限定。 示例数据演示:示例数据:牛(Calf)在两种处理下(Treatment),连续19周(week)时间中体重发生的变化。分别采用方差分析、G-G法校正方差分析、混合线性模型来分析同一组数据。数据类型:也可以将时间变为一列,数据格式整理为:作图模型:可以看出,无论是A处理,还是B处理,Calf牛的重量都是随着时间而增加的。分析方法:首先用方差分析的方法,使用裂区试验设计的方法,这意味着不同的时间段有着相同的方差(很明显,这个假设是错误的)。裂区试验设计的另一个假设是裂区也是随机的,这里time是裂区,这也是不可能随机的。下面是用方差分析的方法,它忽略了这些假定:A split-plot alsoassumes that the split-units are also randomised, which for time is notpossible. Since for each calf its weight at each time is in the samewhole-plot, we have seen with a randomised block that this is equivalent to a uniformcorrelation structure over time.所以Calf其实是主区,时间是裂区。在混合线性模型之前,统计学家推出了一种测试时间方差协方差结构是否是独立均一性关联的结构(uniform correlation structure),如果这种假设不通过,就通过矫正的方法来进行修改方差分析结果。Before the adventof modern computers, statisticians developed tests of whether a uniformcorrelation structure (labelled “symmetry of the covariance matrix”) isappropriate over time. When this assumption failed, an adjustment to the ANOVAis made by modifying the degrees of freedom in the split-plot part of theANOVA. GenStat offers this in the Stats & Repeated Measurements & Analysis of Variance menu.
对于方差分析的裂区试验分析重复测量数据,这一种模型更容易书写:可以看出假定不满足,因此就采用GG方法进行p值的校正。如果方差分析不能满足,可以用多元方差分析的结果:值得注意的是:这种假设假定时间间的方差是一样的,不变的,这对于植物和动物的生长数据来说,显然是错误的。 重复测量:Correlate Models by REML,数据排列时需要每个时间为一列数据,这样方便定义时间间的联系。我们可以看出:混线性模型的F值和df与方差分析的df和F值是一样的:混合线性模型的残差的方差组分为267.7,而方差分析中,因为裂区试验有两个残差,组分分别是202.764+64.893因为我们之前估计到时间的theta1 位0.7576,也可以由267.7*0.来得到相同的结果。如果我们假设方差随着时间变化,协方差矩阵是heterogeneity一致性的Deviance随着时间变化的Deviance:对其进行卡方检验:亦可以用GenStat的函数cuchiHeterogeneity方差协方差假定,方差不一致,但是他们的变化应该是一致的。实际上,时间越近他们的关系越大,这说明模型还有进一步更新的必要性。 Unsructured, autoregressive/power andantedenpendence models 对于unstructed结构的矩阵,它没有特别的结果,方差和协方差都没有一定的规律,我们可以运行这个模型,并将残差的结构通过矩阵的形式打印出来:我们可以根据方差和协方差计算出不同week之间的相关系数,比如第一周和第二周的相关系数计算方法:98.8/sqrt(105.4*131.8)=0.838Unstructured 的deviance为:我们可以用Power correlation model(方差随着时间而变化)看看两者的显著性,用LRT检验:LRT检验的结果为:可以看出,Power模型不如Unstructured模型好。如果我们来比较Antedependence order 1和Antedependence order2的模型:Order2:LRT检验:我们可以看出Antedependence Order2模型要更好一点。至于Unstructured和Antedepence order 2模型,也可以进行LRT检验:可以看出两者之间不显著。除了进行LRT检验,我们也可以参考AIC和BIC的指标来评价模型的好坏。
转载本文请联系原作者获取授权,同时请注明本文来自邓飞科学网博客。链接地址:
上一篇:下一篇:
当前推荐数:0
评论 ( 个评论)
扫一扫,分享此博文
作者的其他最新博文
热门博文导读
Powered by
Copyright &工具类服务
编辑部专用服务
作者专用服务
结合区域协方差分析的图像显著性检测
目的 图像显著性检测的目的是为了获得高质量的能够反映图像不同区域显著性程度的显著图,利用图像显著图可以快速有效地处理图像中的视觉显著区域.图像的区域协方差分析将图像块的多维特征信息表述为一个协方差矩阵,并用协方差距离来度量两个图像块特征信息的差异大小.结合区域协方差分析,提出一种新的图像显著性检测方法.方法 该方法首先将输入的图像进行超像素分割预处理;然后基于像素块的区域协方差距离计算像素块的显著度;最后对像素块进行上采样用以计算图像像素点的显著度.结果 利用本文显著性检测方法对THUS10000数据集上随机选取的200幅图像进行了显著性检测并与4种不同方法进行了对比,本文方法估计得到的显著性检测结果更接近人工标定效果,尤其是对具有复杂背景的图像以及前背景颜色接近的图像均能达到较好的检测效果.结论 本文方法将图像像素点信息和像素块信息相结合,避免了单个噪声像素点引起图像显著性检测的不准确性,提高了检测精确度;同时,利用协方差矩阵来表示图像特征信息,避免了特征点的数量、顺序、光照等对显著性检测的影响.该方法可以很好地应用到显著目标提取和图像分割应用中.
Zhang Xudong
Lyu Yanyan
Miao Yongwei
Hao Pengyi
Chen Jiazhou
作者单位:
浙江工业大学计算机科学与技术学院,杭州,310023
年,卷(期):
Keywords:
在线出版日期:
基金项目:
国家自然科学基金项目,浙江省自然科学基金项目,National Natural Science Foundation of China,Natural Science Foundation of Zhejiang Province,China
本文读者也读过
相关检索词
万方数据知识服务平台--国家科技支撑计划资助项目(编号:2006BAH03B01)(C)北京万方数据股份有限公司
万方数据电子出版社 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
统计检验分析-第六章
下载积分:1000
内容提示:统计检验分析-第六章
文档格式:PPT|
浏览次数:0|
上传日期: 12:45:03|
文档星级:
该用户还上传了这些文档
统计检验分析-第六章
官方公共微信多水平模型(一)
&&您的位置: &&&&多水平模型(二)
多水平模型(二)
转载自网站,作者:李晓松
基本的线性多水平模型及其估计
两水平模型和基本符号
这一章将介绍两水平模型和本书中使用的基本符号。我们将看到模型设置的方法,参数估计、假设检验以及建立可信区间的一般步骤。
为了更为具体,现引入下列资料。这是随后要经常用到的一套数据集,包含了伦敦48所初级学校中的728名小学生,它是“初级学校项目”(Junior School Project, JSP)的一部分。我们考虑了两次测量:第一次是在他们第4年学习时(此时他们满8岁),第二次是在三年以后,即他们初级学校阶段的最后一年。这些数据实际上是Mertimore等人1988年详细描述的数据集的一个子样本。我们利用了这二次数学测验分数以及他们的社会背景和性别。在这一章,资料主要用于说明基本的两水平模型的建立。在第三章,将研究更复杂的模型,它将使我们更有效地处理这些资料。
图2.1是11岁数学分数与8岁数学分数的散点图。这张图中没有区分学校。可以看出,存在11岁分数随着8岁分数增加的趋势,还可看出,随着分数的增加,学生间变异变得狭窄。后面我们将回到这一问题。
在图2.2中,选择了两所学校学生的分数,学校用不同符号代表。有两个特征很明显,一是圆形代表的学校显示出比实心三角形代表的学校更陡的“斜率”;二是对于多数8岁分数而言,11岁分数趋向较低。可以通过模型拟合来表达这些特征。
11岁与8岁数学考试成绩的散点图,某些点代表了几名儿童
两所学校的11岁与8岁数学考试成绩散点图
首先,对一所学校考虑一个简单模型,联系到11岁对8岁分数的关系,我们记为:
yi=+xi+ei&&&& (2.1)
这里,截距()、斜率()和残差(ei)可给予标准的解释。我们将遵从惯例,采用希腊字母表示回归系数,采用置于系数(参数)上面的符号代表样本估计。这是前面章节中图1.1的正规模型,它描述了单水平的关系。为了同时描述几所学校的关系,对学校j,我们记为:
yij=j+jxij+eij&&&&& (2.2)
这是图1.2的正规模型,j指水平2单位,i指水平1单位。
(2.2)基本上仍然是一个单水平模型,它分别描述了每所学校的关系。在某些情形下,例如,只有很少的学校,且兴趣就在样本中的这几所学校,我们可以通过拟合全部2n+1个参数来进行分析,即
(j+j)&&& j=1,...n&
假定一个普通的“学校内”残差方差,以及对每所学校分别拟合模型。
如果我们不仅只关注这几所学校,而是关注更广泛的学校总体,那么,就需要将选择的学校,当作为总体中全部学校的特征所提供给我们的信息。正如通过选择个体的随机样本提供总体均数的估计一样,学校的随机样本也能够提供关于学校总体特征的信息。尤其是这样的样本,能够提供斜率与截距在学校之间的变异与协变异信息,且能够比较不同特征的学校。
当我们希望拥有样本中关于每个学校的信息,而如果学校数量很大,这时,(2.2)将估计非常多的参数。此外,某些学校可能只有很少的学生,这时,(2.2)的应用将导致不精确的估计。在这种情形下,如果将学校当作总体的成员,作出均数和学校间变异的总体估计,就能够有效利用这些信息,获得对每个学校更精确的估计,这将在后面处理“残差”的部分进行讨论。
2.2 两水平模型
现在,我们建立一套一般的符号,它将在本章和后面的章节中使用。必要时则加以详细说明。然后再讨论模型参数与残差的估计,并用例子加以说明。
要将(2.2)做成一个真正的两水平模型,现让j和j成为随机变量。为使符号一致,用0j代替j,1j代替j,并假定:
0j=0+u0j,& 1j=1+u1j&
这里,u0j和u1j也为具有参数的随机变量,并有:
E(u0j)=E(u1j)=0&&&& (2.3)
现在,可将(2.2)写为:
yij=0+1xij+(u0j+u1jxij+e0ij)&&&& (2.4)
第三章所介绍的模型中,水平1的残差项尚需另外的下标。
可见,反应变量yij被表达为固定部分与括弧中随机部分之和。
一般地,将(2.4)的固定部分记为矩阵形式
E(Y)=X&&& Y={yij}
E(Yij)=Xij=(X)ij&&& X={xij}
这里,{}表示矩阵,X为解释变量的设计矩阵,Xij是X的第ij行。对于模型(2.4),我们有X={1& xij},即模型固定部分第i行的另一种表示。
“残差”为随机变量。水平1残差e0ij,在单水平模型情况下就是通常的线性模型残差项。为了使模型对称,以便每个系数都有一个相应的解释变量,可对截距0及其残差u0j定义一个解释变量X0ij,其取值为1,为了简化,这个变量常被省略。
(2.4)明显不同于标准的线性回归模型或方差分析模型,它具有不止一个残差项,这意味着需要特殊方法来获得满意的参数估计。值得指出,它是模型随机部分的结构,是模型的关键部分。模型固定部分的变量可在任何水平上测量,例如在JSP资料中,可以测量学校或教师的特征,也可以引入所谓“组合变量”,即对每所学校计算所有学生的平均8岁数学测验成绩。尽管需要仔细地解释结果,但这种变量的引入并不改变估计步骤。
2.3 方差成份模型的参数估计
模型(2.4)需要估计两个固定系数0和1,四个其它参数,,和,我们将这样的方差和协方差称为随机参数。开始时,仅考虑最简单的两水平模型,它只包括随机参数和,我们将其称为方差成份模型,因为模型固定的成份即固定的预测因子的反应变量方差为:
此即水平1和水平2方差之和。对于JSP资料,这一模型意味着每个学生的总方差是不变的,而且同一所学校中两个学生(用i1,i2表示)之间的协方差即
cov(u0j+e0i1j,u0j+e0i2j)=cov(u0j,u0j)=&&&&
因为假定水平1残差是独立的,故这两个学生的相关为
它描述了水平2单位内的相关(intra-level 2-unit correlation)。在本例中即学校内相关,它测量了学校之间方差占总方差的比例。在三水平模型中,比如学校、班级和学生三个水平的模型,我们将有两个这样的相关,即反映学校之间方差比例的学校内相关,反映班级之间方差比例的班级内相关。
由于模型中不止一个残差项,故产生了非零的单位内相关(intra-unit-correlation)。这意味着,传统的估计方法诸如多元回归中常用的“普通最小二乘法”(OLS)是不适用的,后面部分将说明OLS技术的应用是怎样导致不正确推论的。现在,让我们更详细地看一看两水平资料的结构,即图2.3所给出的有代表性的协方差结构,图中的矩阵是前面所提到的一所学校内3名学生分数的(3? 3)协方差矩阵。
方差成份模型中一所学校三名学生的协方差矩阵
如果有两所学校,一所有3名学生,另一所有2名学生,则总协方差矩阵可表达为图2.4。这种矩阵的“分块对角”结构反映了如下事实,即不同学校学生之间的协方差为0。显然,它可扩展到水平2单位的任何数目。表达这一矩阵更简略的方式即图2.5,后面还将用到这种表达方式。图中,I(n)是n维的单位矩阵,J(n)是n维的1矩阵。V的下标2表明两水平模型。在单水平模型OLS估计中,为0,则该协方差矩阵退化为标准形式,为残差方差。
具有2个水平2单位的两水平方差成份模型中反应变量向量Y的分块对角协方差矩阵
图2.5 使用一般符号的分块对角协方差矩阵
2.4 包括随机系数的一般两水平模型
我们可以在标准方式下,将(2.4)扩展为包括更多固定部分解释变量的形式:
yij=0+1x1ij++(u0jz0ij+u1jz1ij+e0ijz0ij)
或进一步简化为:
yij=Xij++e0ijz0ij&&&& (2.6)
这里,对模型随机部分采用了新的解释变量。可将其更广义地记为:
Z0=={1},Z1={x1ij}
正如这里所表示的那样,模型随机部分的解释变量常为其固定部分的一个子集,但这并非必需,后面将见到不是这样的情形。我们可以在任何水平上测量任何解释变量,例如,可以测量水平1的学生特征或水平2的学校特征。在后面部分,这些例子都将被用于资料分析中。
这一模型中,X1的系数在水平2随机变异,故出现了图2.6中典型的分块结构。矩阵是水平2的随机截距与斜率的协方差矩阵。值得指出,必须仔细区别图2.6中反应变量协方差矩阵和随机系数协方差矩阵。这里,我们将截距也当作随机系数。矩阵是水平1的随机系数协方差矩阵。在本例中,水平1只有一个单一的方差项。代表这些协方差矩阵集。
具有水平2随机截距与斜率的两水平模型中,一个具有2个水平1单位的水平2单位反应变量协方差矩阵。
在这里,我们看到了建立反应变量协方差矩阵的一般模式,它既概括了将在第三章中看到的更高阶的模型,也概括了水平1的复杂变异。附录2给出细节并描述了基本多水平模型的参数估计、假设检验以及建立可信区间的步骤。
2.5 多水平模型的估计(略)
2.6 其它估计方法(略)
残差(略)
普通最小二乘法估计的充分性(略)
2.9 采用纵向教学成绩资料的一个两水平例子
利用JSP资料,将11岁数学测验分数作为反应变量,8岁数学分数作为单一解释变量,再加上定义截距的常数项,拟合简单的两水平方差成份模型(2.7)。表2.1给出了参数估计值,同时给出了OLS估计以便比较。
应用JSP资料的方差成份模型
估计(标准误)
OLS估计(标准误)
0.65(0.025)
0.65(0.026)
 (学校间)
 (学生间)
19.80(1.1)
23.30(1.2)
学校内相关
比较OLS与多水平估计,可以发现,固定系数是相似的,但学校内相关为0.14。学校间方差的标准误估计小于方差估计,表明与0具有高度显著性差异。但应审慎对待这一比较,因为方差估计并非正态分布,以及仅仅是估计的标准误,尽管这里的样本含量使得后一限制并不太重要。一般地,人们更偏向于利用当前模型与省略水平2方差的模型所估计的“偏差度”进行似然比检验(likelihood
ratio test) (见McCullagh和Nelder,1989)。下一部分将更一般地讨论推论步骤。这里,偏差度分别为4294.2和4357.3,其差值为63.1,与自由度为1的?2分布相比具有高度显著性。值得指出,如果采用表2.1中标准误的估计来判断显著性,可以获得相应的值为(3.19/1.0)2=10.2,比似然比检验统计量小得多。
下面,通过引入性别与社会等级两个解释变量来进一步说明这一模型,其结果列于表2.2的第一列。
表2.2 应用带有性别与社会等级的JSP资料的方差成份模型
估计(标准误)
OLS估计(标准误)
0.64(0.025)
 性别(男-女)
-0.36(0.34)
-0.39(0.47)
 社会等级(非体力-体力劳动)
0.72(0.39)
2.93(0.51)
 (学校间)
 (学生间)
19.60(1.1)
37.20(2.0)
学校内相关
随机参数估计以及8岁数学分数的系数几乎没有改变。性别差异非常小,尽管女孩成绩较好,但远离5%的显著性水平。社会等级差异表明非体力劳动家庭的儿童作得较好。当判断固定效应时,对估计值与其标准误作一简单比较通常是适当的。因为模型调整了入学的数学成绩,则社会等级和性别差异的解释,即女孩相对于男孩或非体力劳动相对于体力劳动家庭的儿童具有相对进步。表2.2中第二列,显示了模型中去除8岁数学成绩的效应,现在的解释即是在11岁时所发现的实际差别。值得指出,此时水平1和水平2方差增加了,它反映了入学成绩作为一个预测因子的重要性。学校内相关只有轻度降低。社会等级差别非常大,这表明绝大部分差异为非体力劳动社会组的儿童在8-11岁之间取得了较大进步所至。性别差异仍然较小。
这里,8岁成绩被直接应用,没有任何形式的中心化。在本例中是可以接受的。截距的严格的解释是一个8岁时零分的预测分数,它超出了观察值的范围。如果将8岁成绩中心化,则截距将被解释为平均8岁成绩时的预测值。在第三章中,当引入随机系数时,我们将看到这将是一个重要的考虑。
<FONT lang=ZH-CN
face=System,黑体 color=#.9.1 模型假设的检验
现在通过残差来检验模型的某些假设。
表2.2的标准化水平1残差与预测值
图2.7是以标准化水平1残差为纵轴的图;图2.8是以这些残差为纵轴,以其等价正态分数为横轴的图;图2.9为水平2残差的等价正态分数图。图2.7显示了与图2.1相同的模式,即随着8岁分数的增加,方差减小,因而水平1常数方差的假设显然是不存立的。第三章将涉及处理这一问题的方法。另一方面,正态分数图较直,表明水平1和水平2残差的正态分布假定是合理的。
表2.2的标准化水平1残差与正态等价分数
<FONT lang=ZH-CN face=System,黑体 color=#.9.2
影响单位的检查
检查图2.9,可以发现一所学校(第38号学校)具有最大的标化残差,其非标化值为3.5,次大的学校为2.9。分析中忽略一个或更多单位的效应,对于参数估计产生的影响常常是人们感性趣的。对于单水平模型而言,已经发展了有关技术(Cook和Weisberg,1982),可了解省略某个单位对分析的影响,但对于多水平模型,目前尚无有效率的技术。但可以研究省略特定单位的效应,我们用第38号学校来说明这一点。表2.3给出了两种不同的参数估计。
表2.2的标准化水平2残差与正态等价分数
分析A省略了第38号学校,它使得水平2方差下降了大约14%,但对其它参数影响很小。分析B保留了全部资料,但通过在模型固定部分拟合一个单独的常数,从而将第38号学校从水平2变异中去除。对于影响水平2方差的解释变量,我们拟合Z0*而不是Z0。这里:
固定部分所拟合的常数即1-Z0*。第38号学校中只有9名学生,这一相对较少的学生数目解释了这样一个事实,即它被收缩的残差均数3.5大大小于直接拟合的均数6.1。尽管在本例中,它对参数估计只产生很小的影响,但一般地,最好是对影响单位拟合单独的参数,并在分析中保留尽可能多的数据。
表2.3 省略第38号学校的分析A与拟合第38号学校为一个常数的分析B
估计(标准误)
估计(标准误)
0.65(0.026)
0.64(0.025)
 性别(男-女)
-0.40(0.34)
-0.37(0.34)
 社会等级(非体力-体力劳动)
0.74(0.39)
0.72(0.38)
 第38号学校
 (学校间)
 (学生间)
学校内相关
高水平解释变量与组合效应(compositional effects) (略)
假设检验与可信区间(略)
<FONT lang=ZH-CN face=System,黑体
color=#.11.1 固定参数
<FONT lang=ZH-CN face=System,黑体 color=#.11.2
<FONT lang=ZH-CN face=System,黑体 color=#.11.3
一般结构及多水平模型的估计(略)
多水平残差估计(略)
EM算法(略)
吉布斯抽样(略)}

我要回帖

更多关于 显著性水平0.01和0.05 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信