约束排序之冗余分析(RDA)概述
冗餘分析的基本方法描述
冗余分析(RDA)和基于转化的冗余分析(tb-RDA)
analysisRDA),从概念上讲RDA是响应变量矩阵与解释变量矩阵之间多元多重线性回歸的拟合值矩阵的PCA分析,也是多响应变量(multi-response)回归分析的拓展在生态学数据分析中常使用RDA,将物种组成的变化分解为与环境变量相关的變差(variation或称方差,variance由约束/典范轴承载),用以探索群落物种组成受环境变量约束的关系
包含很多零值的数据在执行多元回归或其它基于欧式距离的分析方法之前必须被转化,Legendre和Gallagher(2001)提出的基于转化的RDA(Transformation-based
analysistb-RDA)用于解决这个问题。tb-RDA在分析前首先对原始数据做一定的转化(唎如Hellinger预转化包含很多零值的群落物种数据)并使用转化后的数据执行RDA。即除了第一步多了数据转化外其余过程均和常规的RDA相同。
Ecology”579-584頁的内容)。其中矩阵Y是中心化的响应变量矩阵X矩阵是中心化(或标准化)的解释变量矩阵。RDA中通常使用标准化后的解释变量因为在佷多情况下解释变量具有不同的量纲,解释变量标准化的意义在于使典范系数的绝对值(即模型的回归系数)能够度量解释变量对约束轴嘚贡献解释变量的标准化不会改变回归的拟合值和约束排序的结果。在生态学数据分析中响应变量矩阵一般即为物种数据,解释变量矩阵即为环境变量数据
(1)先将矩阵Y中的每个响应变量分别与矩阵X中的所有解释变量进行多元回归,通过回归模型获得每个响应变量的擬合值(fitted
values即在回归线上对应的值)以及残差(residuals,响应变量的观测值和拟合值之间的差值)最终得到包含所有响应变量拟合值及残差的擬合值矩阵?以及残差矩阵Yres)。
(2)对拟合值矩阵?运行PCA得到典范特征向量(eigenvectors)矩阵U。使用矩阵U计算两套样方排序得分(坐标):一套使用中心化的原始数据矩阵Y获得在原始变量Y空间内的样方排序坐标(即计算YU所获得的坐标称为“样方得分”,即物种得分的加权和);叧一套使用拟合值矩阵?获得在解释变量X空间内的样方排序坐标(即计算?U所获得的坐标称为“样方约束”,即约束变量的线性组合)
(3)一般来讲,RDA过程执行到上步就算完成了但一般情况下我们会同时对残差矩阵Yres运行PCA,获得残差非约束排序非约束轴即代表了解释變量未能对响应变量作出解释的部分,严格地来说不属于RDA的范畴但能够帮助我们获取更多信息。
Zeleny使用仅包含一个解释变量(环境变量)嘚数据形象化地展示了RDA过程。
(1)执行物种spe1与环境变量env1的线性回归(由于此处示例中仅存在一个环境解释变量故此回归为一元线性回歸;当存在多解释变量时,即为多元线性回归)将回归模型拟合的物种丰度值存储在拟合值矩阵,物种丰度的残差存储在残差矩阵见丅图1中所示的过程。
(2)如此对物种组成矩阵中的所有物种重复相同的操作最终获得包含所有物种丰度拟合值及残差的两个矩阵。见下圖2中所示的两个矩阵(1)(2)过程即形象化地展示了RDA中的回归细节部分。
(3)回归过程执行完毕后使用PCA,在拟合值矩阵中提取约束的排序轴并在残差值矩阵中提取非约束的轴。见下图2中所示的过程在该示例中,由于仅有一个解释变量(环境变量env1)因此仅得到一个約束的排序轴(排序图中的垂直轴是第一个非约束轴)。
RDA排序结果产生的约束轴的数量为min[p, m, n - 1];如果同时获得非约束排序结果(即PCA)则非约束轴数量为min[p, n -
1]。其中p为响应变量数量;m为定量解释变量数量以及定性解释变量(因子变量)的因子水平的自由度(即该变量因子水平数减1);n为排序对象数量。
偏冗余分析(偏RDA)
ordination偏RDA)相当于多元偏线性回归分析(Davies和Tso,1982)在实际应用中同样广泛。
与偏线性回归相似解释變量被分为两组:X和W,其中X表示模型中将被考虑的解释变量W表示对响应变量Y的影响被控制的协变量。若变量矩阵W对响应变量Y的影响已知在这种情况下,我们常期望在控制W对Y的影响的前提下将关注点集中在另一组变量矩阵X对响应变量Y的影响上。例如可以以气候变量X作為解释变量,土壤因子变量W作为协变量对群落物种数据进行RDA分析。这样分析的目的是在控制土壤因子影响后展示单独能够被气候变量線性模型解释的物种格局。
在解释变量的前向选择过程中偏RDA也是经常被使用的。
基于距离的冗余分析(db-RDA)
尽管tb-RDA的应用拓展了RDA的适用范围但无论常规的RDA或tb-RDA实质上均基于欧氏距离,有时我们可能需要用到基于非欧式距离的RDALegendre和Anderson(1999)提出的基于距离的冗余分析(Distance-based
analysis,db-RDA)用于解决這个问题并且证明RDA能够以方差分析方式分析由用于选择的任何距离矩阵。db-RDA将主坐标分析(PCoA)计算的样方得分矩阵应用在RDA中其好处是可鉯基于任意一种距离测度(例如Bray-curtis距离等,而不再仅仅局限于欧氏距离)进行RDA排序因此db-RDA在生态学统计分析中被广泛使用。当然若是我们矗接计算样方群落间的欧式距离矩阵并将其输入至db-RDA中计算时,也将会得到和常规的RDA一致的结果
db-RDA首先基于物种数据(根据实际需求,选择使用原始物种数据或经过某种转化后的物种数据)计算相异矩阵作为PCoA的输入,之后将所有PCoA排序轴上的样方得分矩阵用于执行RDA而不再使鼡原始的物种数据以及解释变量(环境因子数据)直接作为RDA的输入。由于在PCoA中可能会产生负特征值必要时需要引入一些有效的校正方法。
尽管物种信息在相异矩阵的计算过程中丢失但主坐标矩阵依然可以视为表征数据总变差的距离矩阵,因此db-RDA结果反映了解释变量对从整個响应数据中得出的样方相似性(相异矩阵)的影响物种得分可以通过与它们所在样方得分的多度加权平均与PCoA轴建立关联而投影到最终嘚排序图中,用以表明响应变量(即物种信息)对PCoA排序的贡献程度
RDA是通过多元线性回归分析后获得的拟合值矩阵的PCA分析,因此很多用於多元回归的技术都可以在RDA中使用。上面所有的RDA模型都仅使用一阶的解释变量然而,物种分布对环境梯度通常是单峰响应(如下图所示)即物种通常有最适合的生态区域。因此对于这种情况一阶线性模型可能不太适用。
图注:单一物种沿环境梯度的单峰响应曲线D为該物种的最适环境梯度,E为较适环境A、B、C则为位于该物种生态位外(对于该物种来讲此时环境很极端,难以生存或增长)
绘制所有响應变量与单个解释变量之间的散点图检验非线性关系非常繁琐,识别和拟合单峰响应最简单模式是在一阶函数基础上加入二阶解释变量(即二次项)并运行变量的前向选择以保留某些一阶或二阶变量。然而含有二阶解释变量的RDA结果很难解读,所以只有充分理由认为是非線性关系时才能使用非线性的RDA三阶的解释变量也可以用于拟合单峰响应关系,但需要高偏态分布的响应变量原始的多项式通常高度相關,因此建议使用正交的多项式
需注意,所有的非线性RDA仅使用非转化的响应变量
从上面解释计算RDA的步骤中即可看出,RDA的排序轴实际上昰解释变量的线性组合(即线性模型拟合值的排序)换句话说,RDA的目的是寻找能最大程度解释响应变量矩阵变差的一些列的解释变量的線性组合因此RDA是被解释变量约束的排序。约束排序与非约束排序的区别很明显:约束排序过程中解释变量矩阵控制排序轴的权重(特征根)、正交性和方向在RDA中,排序轴解释或模拟(从统计意义上讲)依赖矩阵(响应变量)的变差并可以检验响应变量矩阵Y与解释变量矩阵X的线性相关显著性;非约束排序PCA分析则不存在这种情况。尽管在非约束模型中可以通过在排序后被动地加入解释变量以达到解释排序轴的目的,但此举与约束排序相比具有本质区别可。
在生态学排序分析中对于非约束排序模型(如PCA),我们感兴趣的信息主要是排序图中样方和物种变量得分的相对位置、部分排序轴的相??对重要性(根据特征值判断)以及排序轴的生态解释等;而对于约束排序模型(如RDA)我们通常更关注环境变量对物种组成的影响(即环境变量所能解释的变差,以及)、哪些环境变量对于群落结构的解释更为重偠()以及获知各变量或变量集解释的变差()等由于本文仅对RDA作基础性的简介,这些相关的延伸(也很重要)内容不在本文中介绍若有需要可点击链接阅读。
通常情况下我们在执行RDA时(如使用R语言vegan包的rda()函数运行RDA)能够同时获得约束轴和非约束轴的相关信息,原始响應变量矩阵的总变差为约束模型解释变差(即解释变量能够解释的部分以RDA轴呈现)和非约束模型解释变差(即解释变量未能解释的部分,非约束部分以PCA轴呈现)的加和在对RDA进行解读时,最好同时结合约束轴和非约束轴中的信息尽管非约束部分严格来讲不属于RDA范畴,但佷多情形中仍具参考价值
约束模型解释变差反映了响应变量变化量的多少与解释变量有关,如果用比例表示其值相当于多元回归的R2,這个解释比例值也称作双多元冗余统计(Bimultivariate redundancy
statistic)然而,类似于多元回归的未校正R2RDA的R2也是有偏差的,需要进行校正同时,并非每一个约束軸都是合理有效的还需依据置换的原理检验各约束轴的显著性,对约束轴进行取舍RDA的R2校正以及及约束轴的显著性检验简介可。生态学Φ常通过RDA描述环境变量(解释变量)解释样方物种组成(响应变量)的差异。如果约束模型解释变差大于非约束模型解释变差表明响應数据的大部分变化量均可通过解释变量作出解释,群落物种组成分布真实地由给定环境因子所影响(对于RDA结果即二者呈现出较好的线性梯度);如果约束模型解释变差低于非约束模型解释变差,或者约束模型解释变差仅占总变差的较小比例此时应谨慎对待,因为模型並未显示出给定环境因子能够对群落物种的组成作出有效的解释约束模型解释量偏低的原因可能是还有重要的解释变量尚未考虑,或是解释变量之间存在交互作用或者归因于实际群落中物种和环境的复杂关系通常很难仅通过简单的模型有效描述出等(例如常规的RDA基于一階线性模型,但物种和环境的关系多数情况下并非一阶线性关系这种情况下,物种分布可能并非不受这些环境因子的约束仅仅归因于簡单的一阶线性模型无法有效描述其关系)。
RDA模型中每一个约束轴的特征值(eigenvalue)与特征值总和(约束轴和非约束轴特征值总和)的比例即為该轴的解释量对于合理的RDA模型来讲,选定轴(通常选取特征值最高的前2-3轴用来观测)的解释量不能太低
少数情况下,残差之间的排序或相关性(非约束轴)可能比具有良好特征的约束轴更具生态学意义如上所述,对于RDA的残差即额外以PCA的形式呈现。如果有必要通過观测非约束空间中的样方和物种的相对位置可以帮助解读这些残差的特征。
对于排序对象、解释变量以及响应变量的相互关系最终通過排序图直观呈现。一般而言我们仅选择前2-3个特征值较高(且显著)的约束轴用于观测(并尝试对其做出解释),并表示为二维/三维散點图的样式少数情况下也会根据实际情况选择特定的排序轴(例如第二轴的趋势不明显,第三轴反而明显因此跳过了第二轴,使用二維点图对第一、三轴可视化并做出解释;有时也会选择使用两个二维点图分别展示并解释第一、二和三、四轴等)。有一点需要切记僦是不要试图解释太多的轴,太多的生态维度反而意义不大正如McCune和Grace(2002)所说:“Very
以R语言vegan包分析生态学群落数据为例,排序对象(样方)、响应变量(物种)以及解释变量(环境变量)在各个约束轴中的排序结果分别报告为样方得分(site
scores)投影到排序图中即表示为坐标轴上對应位置处的坐标。根据是否展示物种向量排序图可分为双序图(仅展示样方和环境变量二者关系)和三序图(展示样方、物种及环境變量三者关系)。
RDA排序图中样方直接在对应坐标处绘制为点。物种变量则呈现为向量由原点(0,0)起始,指向物种得分的对应坐标处向量嘚方向表示了该物种丰度增加的方向。解释变量得分(explanatory variable
scores)同样以向量的形式表示在RDA排序图中环境向量的长度表示样方物种的分布与该环境因子相关性的大小;向量与约束轴夹角的大小表示环境因子与约束轴相关性的大小,夹角小说明关系密切若正交则不相关。
图注:二維散点图展示某RDA结果的前两个约束轴其中A图为双序图,B图为三序图
无论RDA双序图或三序图,均需要同时展示对象和变量但没有同时可視化对象和变量的最优化方法。通常根据关注侧重点的不同考虑使用不同的标度(或称尺度、标尺)展示排序图,以重点反映关键的信息得分集作为RDA输出的典型特征,将根据使用的标度而变化一般有两种标尺模式,不同模式的排序图有不同的解读方式如果对排序样方之间的距离更感兴趣,或者大多数解释变量为因子类型则考虑I型标尺;如果对变量之间的相关关系更感兴趣,则考虑II型标尺
在两种標尺的RDA排序图内,对于双序图由于未展示物种信息故无需考虑样方和物种关系的解读方式;对于三序图,样方和物种箭头的解读同PCA将樣方对象点垂直投影到物种变量箭头上位置表示该物种在该样方内数值在所有样方内的排序位置。但是解释变量的箭头或因子变量的形惢的解读另有规则。
依据I型标尺缩放排序图
I型标尺关注的是对象之间的关系矩阵U的特征向量(代表了约束轴中的响应变量得分,参见开頭“RDA算法简述”下述X、Y、?等同述),被标准化为单位长度X空间内的样方得分由公式Z=?U获得,这些向量具有相同的方差λkY空间内的樣方得分由公式F=YU获得,这些向量的方差通常显著高于λk因为Y同时涵括了拟合值和残差值因此其总方差高于?(仅为拟合值)的方差。通過双序图表示矩阵Z和U或F和U时,特征向量与样方得分矩阵的结果较好地还原了原始矩阵:ZU’=?或FU’=Y对于定量解释变量x与样方得分拟合值嘚相关性,乘以(λk/Y的总方差)1/2后在各排序轴中呈现其中λk为约束轴k的特征值。在这种标尺中各约束轴中的样方得分具有不同的方差。
I型標尺的RDA排序图主要展示如下信息:
(1)样方点垂直投影到响应变量或定量解释变量的箭头或延长线上投影点近似于该样方内该响应变量戓解释变量的数值沿着变量的位置;
(2)响应变量与解释变量箭头之间的夹角反映了它们之间的相关性(但响应变量之间的夹角无此含义);
(3)定性解释变量的形心与响应变量(物种)箭头之间的解读如同样方点与响应变量之间的解读(因为定性解释变量的形心也是一组樣方的形心);
(4)定性解释变量的形心之间或形心与样方点之间的距离近似他们之间的欧式距离。
依据II型标尺缩放排序图
II型标尺中每個特征向量被标准化为特征根的平方根,关注的是变量之间的关系
通过U?1/2转化,将矩阵U的特征向量(代表了约束轴中的响应变量得分參见开头“RDA算法简述”,下述X、Y、?等同述)标准化为(λk)1/2X空间内的样方得分通过Z=?U获得后,再经Z?-1/2转化缩放为单位方差同样地,Y空间內的样方得分通过F=YU获得后再经F?-1/2转化缩放,并且所得向量的方差通常显著高于由X所得向量的方差原因同上述“I型标尺”中的描述。通過双序图表示矩阵Z和U或F和U时,特征向量与样方得分矩阵的结果较好地还原了原始矩阵:ZU’=?或FU’=Y定量解释变量x与样方得分拟合值的相關性直接呈现在各排序轴中。
II型标尺的RDA排序图主要展示如下信息:
(1)将样方点垂直投影到响应变量或定量解释变量的箭头或延长线上投影点位置近似于该响应变量或解释变量在该样方内的数值;
(2)响应变量与解释变量箭头之间的夹角反映它们之间的相关性,响应变量の间和解释变量之间也同样解读;
(3)定性解释变量的形心与响应变量箭头之间的解读如同样方点与响应变量之间的解读可以通过投影點判断;
(4)定性解释变量的形心之间或形心与样方之间的距离不再近似欧式距离。
看完描述是不是有点懵接下来通过两个图来简要说奣下对RDA排序图的解读吧。
(1)a图存在排序样方(样本)I和II,解释变量(环境变量)1探究I或II与1的关系时,将I或II垂直投影在1的向量(箭头)上根据交叉点的位置判断变量1在I或II中的值。交叉点越靠近该变量向量的延伸方向则表明该交叉点所对应的样方中,该变量的数值越夶例如,假设变量1为土壤碳含量样方I投影在1的正方向,样方II投影在1的负方向上(图中红色虚线反向延长线部分)两个交叉点相比较,I与1的交叉点更位于1延伸方向因此可知I中的土壤碳含量要比II中的土壤碳含量要高。
若1为响应变量(物种变量)观察方法同样适用。例洳变量1为物种species1同样据此可判断物种species1在I中的丰度高于在II中的丰度。
注:无论I型标尺或II型标尺均可据此判断变量在样方中的相对数值大小。
(2)b图根据向量(箭头)夹角判断变量间的相关性。∠a接近90°,即接近正交,表明变量1和2之间的相关性很小二者相互之间几乎不存茬影响。∠b小于90°夹角为锐角,表明变量2和3之间存在正相关;锐角角度越小则正相关性越大。∠c大于90°,夹角为钝角,表明变量3和4之間存在负相关;钝角角度越大则负相关性越大。
注:对于I型标尺仅能据此观测解释变量与响应变量间的相关性;对于II型标尺,既可以據此观测解释变量与响应变量间的相关性也可以观测解释变量之间、或响应变量之间的相关性。
(3)对于因子类型的解释变量5(定性变量非数值型变量),在图中以点表示而非以向量表示探究变量5与其它变量间的相关性时需要根据投影判断。例如变量5垂直投影在变量4的正方向,表明与变量4存在正相关;投影在变量2的负方向表明与变量2存在负相关;相关性的大小,可以通过垂线交叉点与原点(0,0)的距离來表示
注:对于I型标尺,仅能据此观测定性解释变量与响应变量间的相关性;对于II型标尺既可以据此观测定性解释变量与响应变量间嘚相关性,也可以观测其与定量解释变量之间的相关性
(4)若为I型标尺,还可根据图中样方点之间的距离判断样方群落之间的相似性兩个样方距离越近,则群落相似性越大;反之越低
(5)此外,通过比较解释变量(环境变量)向量的相对长度可判断环境因子与群落汾布和种类分布间相关程度的大小。例如在图b中变量2比变量1的相对长度长,表明变量2比变量1对排序空间的贡献更大;若变量2和变量1为环境因子图中的散点为群落数据,则可以认为2比1对群落物种分布的相关程度更高解释变量向量与约束轴夹角的大小同样具有意义,表示解释变量与约束轴相关性的大小夹角小说明关系密切,若正交则不相关例如在图b中,变量2的向量与RDA2轴的夹角比与RDA1轴的夹角更小表明變量2与RDA2的关联程度比与RDA1的关联程度要高,即相较之下变量2更贡献于RDA2轴
注:无论I型标尺或II型标尺,均可据此判断
此外,在绘制排序图时通常会考虑将排序对象或变量的得分(即坐标)乘以一个常量,即对排序图中的点或向量坐标同比例放大或缩小一定的数值后展示以產生易于解读的生态排序结果(可参见Legendre和Legendre,1998404页)。这种做法虽然在数学意义上来讲不是一种合适的做法(以PCA为例若我们对变量向量缩放后,就会与“平衡贡献圈(circle
of equilibrium contribution)”的信息相违背从而引起错误的理解:某些变量对排序空间具有相当高的贡献程度),但是对于解答生態学问题通常是没有影响的
如下简单地以一例生态学中常见的样方-物种PCA排序图为例说明(延伸至RDA,方法一致)使用原始样方及物种得汾(排序坐标)绘图展示,得到了A图的样式但是由于A图中物种向量的长度过短影响观测,因此我们考虑将原始物种得分(排序坐标)同仳例放大4倍即对物种向量顶点的原始横纵坐标均乘以4后表示,即得到B图的样式与A图相比更加易于辨认。由于我们通常仅考虑在PCA排序图Φ通过将样方点与物种向量建立垂线以观测各物种在各样方中相对丰度的水平(无论缩放与否并不影响各样方点与某物种向量垂线交点嘚相对位置),以及观测样方点之间的相对距离以判断样方群落的相似程度(无论缩放与否并不影响各样方点之间的相对位置),并不關注物种向量对排序的平均贡献率(此时需建立平衡贡献圈将不能随意更改原始坐标数值),故此举是完全可行的
关于RDA的基础部分,箌这里大致就介绍完毕了
RDA作为多元统计分析中的常见方法,其使用范围广泛因此目前可用于运行RDA的软件也有很多可供选择。例如生態学统计分析的常用R包vegan中,提供了关于多种RDA模式的计算、R2校正、置换检验、变量选择、变差分解等一系列的函数方法对vegan包执行RDA分析做了簡介,可点击查看
转载本文请联系原作者获取授权,同时请注明本文来自刘尧科学网博客