spss广义线性模型实例 deviance多少比较好

苹果/安卓/wp
积分 1574, 距离下一级还需 651 积分
权限: 自定义头衔, 签名中使用图片, 隐身, 设置帖子权限
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡, 抢沙发, 提升卡下一级可获得
权限: 设置回复可见道具: 沉默卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
本帖最后由 wanghaidong918 于
03:00 编辑
这是我做项目的时候自己开发的一段广义线性模型的程序,本来想放到我的书&SAS编程与数据挖掘商业案例&中,但是要等到机械出版社的再版合约.暂时和大家分享一下吧:
proc genmod data =
VARIANCE VAR=A**P;
DEVIANCE DEV=2*((Y**(2-P)-Y*A**(1-P))/(1-P)-(Y**(2-P)-A**(2-P))/(2-P));
class &u._
model target_var=&u._flag /scale=Pearson type3 ;
fwdlink link=(A**(1-p))/(1-p);
invlink link=((1-p)*_xbeta_)**(1/(1-p));
注意:该段程序的目标变量须要符合Tweedie分布才适用.
另外,刚开发出一个超维度的降维算法(不是什么SVD,PCA之类的),但是代码实在太长,还是想着再版的时候放到我的书里面去.
希望各位批评指正!
载入中......
总评分:&学术水平 + 4&
热心指数 + 2&
呵呵,拜读了您的书,感觉受益匪浅,我现在主要在研究您的书了;另外顺便请教一个问题:若某时点对一群人进行不同量表评价,计算各量表的权重,不知道如何去做?十分感谢
本帖最后由 jingju11 于
11:41 编辑
我见过有人用nlimixed做过。在genmod里直接做少见。令人佩服。不过既然属于generalized linear model,方向不错。值得好好研究一番。
牛人,正研究你的书。
降维方法很多,请问是什么方法
最恨对我说谎或欺骗我的人
哦, 是我自己用SET/SET语句开发的,书上没有这种算法.其实超维度也是相对的,目前只能用SAS做到2万维,超大维度可能需要用Hadoop做. Hadoop需要软硬件的支持.
支持呀。。。。高手
楼主,牛逼,我也是研究过您的大作
初级热心勋章
初级热心勋章
中级热心勋章
中级热心勋章
初级学术勋章
初级学术勋章
初级信用勋章
初级信用勋章
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师广义线性模型方法在森林火灾问题中的应用_学霸学习网
广义线性模型方法在森林火灾问题中的应用
中国科学技术大学 硕士学位论文 广义线性模型方法在森林火灾问题中的应用 姓名:韦剑 申请学位级别:硕士 专业:概率论与数理统计 指导教师:缪柏其
摘要中国是森林火灾多发的国家之~,森林火灾破坏巨大,为了防治森林火灾,需要研究对火灾预报问题。国外己在这一领域进行了深入的研究,主要是通过对多种气象条件的分析来确定火灾风险。国内也有相关的研究成果,但用数值方法 的较多,没有见到用统计模型对森林火灾数据进行预报。本文采用Logistic回归 模型和零膨胀Poisson回归等统计模型描述森林火灾数据,并进行了模型选择, 对火灾发生的概率及发生次数进行了预测。 本文第一章简略介绍了广义线性模型及其特例Logistic回归模型和零膨胀 Poisson回归模型,概述了森林火灾研究现状及本文的主要结果。 本文第二章用Logistic回归模型将数据分别视为分组因子数据和有序状态变量数据,进行建模。对模型进行选择,检验样本的预测结果表明选出的两个分组数据Logistic回归模型和带交互效应的有序状态变量数据模型都较为合适。 本文第三章用零膨胀Poisson回归模型将数据分别视为分组因子数据和有序 状态变量数据进行建模和模型选择,用选出的模型对火灾发生的次数进行了预 测,结果表明选出的两个分组数据的零膨胀Poisson回归模型和有序状态变量数 据ZIP回归模型预测效果都较好。II AbstractChina is fire endangeroneof countries that the forest矗re is frequently occurringThe forestUSextremely In order to prevent and control the forest fire,we need toarestudy the prediction of forest fire,There abroad,the main works aretomany research results for the predictionanalyze the multiple atmospheric conditions and toaredetermine the risk ofthe forest fire.Therenoalso some research works in china.butstatistical model is applied.Using Logistic regression and zero―inflated Poisson models,We consider these prediction for the forest fire date and select(ZIP)statisticalsome ofthe best models to predict in this thesis. In the first chapter,we introduce the generalized linear model and its specialcase,the Logistic regress/on model and ZIP regression model briefly,and we also introduce the present research situation for the forest fire thesis. In the second chapter,the Logistic regression models are introduced according to the grouped factor data and ordinal state variableand summarizethe main results ofthisdata,respectively,andtwo of thebest modelsareselected.Applying the selected models we predict the risk probabilityfor the forest fire by test data The prediction is showed that two selected Logistic models basedonthe grouped factor data and the ordinal state variable data withinteraction are both good. In the last chapter,we construct the ZIP regression model and select two of the best models by the grouped data and the ordinal variable data respectively Using the selected ZIP regression models we predict the happened number for the forest fire bytest datal It shows thatthe ZIP regression model basedboth good.onthe grouped date and theordinal variable dataareIII 广义线性模型方法在森林火灾问题中的应用第一章综述§1.1广义线性模型 广义线性模型(GenemalizedLinearModel,简记GLM)的一般理论,首先由Nelder和Wedderbum[1]提出,GLM是正态线性模型的直接推广。它可直接适用于连续数据和离 散数据,特别是后者,如属性数据,计数数据。实际应用方面,在生物医学,经济和社会 科学领域的数据分析上有重要意义。GLM的某些特殊类型及其应用早在GLM理论得到发 展之前就己有文献记录,如Grizzle等[2]于1969年提出了一般形式的GLM,但局限于囡 变量服从Poisson分布的情形:Dempster【3]于1971年提出了GLM的一般形式,但局限于 考虑“自然联系函数”的情况。只到1972年Nelder和Wedderburn考虑了~般情形,并给 出了GLM这个名称。McCullagh 这方面较完备的专著。 广义线性模型的定义: 线性模型的定义,以X和Y分别记自变量和园变量,x可以是多维而Y是~维。假 设共进行了n次观察,N/z,第i次取值为(x。,M)。线性模型的假定包括两个方面:andNelder[4】(1983年第~版,1989年第二版)是目前1.记“=E(r),NIX,=《∥,f=1,2,…,一.此处F=(‘。…气),∥=(届…岛)’.2.有关(I,…,K)的分布有一些要求:如I,…,‘有等方差t两两不相关。一般要求X,…,K相互独立,I~N(x。1p,盯2),f=1,2,…,H.所谓“广义线性模型”,是线性模型的推广,其基本假定是在上述两条假定基础上的推 广: 1.存在一个严格增加的可微函数g,使得确=g(ix:)=x≯,∥.=E(I),i=l,2,?,"2.I,..,K独立,Z的分布,(”,口,庐)属于指数型分布。GLM产生的实际背景如下:首先在实际应用上常常遇到因变量为属性变量的情形, 即只取值0或1,或者因变量为分类变量,即只取有限个整数值。在这里Y是定性数据而 不是定量数据。这时E(Y)的值总是落在一个有限的区域内,它不同于X的一个线性函数x;p,后者的取值范围在(一00,+。。)之间。对于这种情况直接做线性模型显然不合适。以属性数据为例,如果引进一个适当的严格增函数g,把(o,1)区间变换到(一。0,+∞).而记E(Y)=p,则g(p)可取(一。0,+c。)内的任何值,从而可以表达成l∥的形式。联系函数通常取下面几种形式之一:1.109it:g(P)=log(p/(1一p)),2.probit:g(P)=巾。(p),中为Ⅳ(o,1)的分布函数,3log一109:g(P)=log(一log(1一p)) 一指数型分布的形式为:£墨塑璧塑型互堡壅查堡坐壅塑墅!堂垦旦/(少,目,妒)=exp{(yo一6(护))/臼(≯)+c(y,矿)}其中d(矿)通常为d(≯)=OIp的形式,P为给定的常数,常取p=1。若LvY服从指数型分布(1】),易见即)一掣%r(j,)=可d2b(矿O)。(≠)(1:)(1 3)此处百db(O)和掣州咖,舯:阶撒鼬肼函数警db为目的严格增连续溅把∥=掣的反酬a她即日=g(u1,则称g为自然联系函数。 极大似然估计:将(1.1)式中的口用E(v)=∥=x’∥代入,容易求出其似然函数,导出似然方程,但此似然方程无显式解,∥的极大似然估计通过迭代计算求得。 关于广义线性模型的文献还包括Fabrmeir[5]、16],Hardin [9]等,都对广义线性模型作了系统的介绍。§1,2and Hilbe177,陈希孺[8】、Logistic回归一.定义 Logistic回归模型是GLM的特例t它适用于因变量Y只取0,1的情况。P(Y―1)=p, P(Y=0)=1-P,故Y的分布为f(Y,O,≯)=p7(1一p)1。’=exp{ylog(p/(1一p))+l。g(1一p)j=exp{yO-b(e)1它是指数型分布(1(1.4)1)的形式,其中0=log(p/(1一p))=占(p)为自然联系函数,6(臼):log(1+矿),庐=盯◇)=1,c(y,≠)=0,易见占(y)=P,设有k个因素五,…,五影响Y的取值,称g(P)=log(p/(1一p))=岛+届x。+??-+成h为logistic线性回归模型。其中届,…,鼠为未知参数,由(1(1.5) 5)式可求得优势比(oDDs),即p/O―P1的值为 广义线性模型方法在森林火灾问题中的应用p/0-p)=exp{flo+届1+???+flkXk),从而得到概率P的计算公式(1 6)P=。7(1+,) =exp{/30+届x。+?-?+fl;xk}/(1+exp{岛+届x。+???+成k})二.Logistic回归参数的极大似然估计 (1.7)设(r,x,),i=I,2,…,H为独立样本,其中_=(‘1,一,Xik)。只=JD(I=lIt)l一只=P(z=01x,),故似然函数为上(∥)=n二P。”(1叩)h]取对数得log(L)=∑:.Y。,og(pj/(1一P,))+∑二log(1一P,)(1 8)=∑:。{M(成q-/7IXi.+…+展靠)一log(1+exp(flo+fllXj.+…+觑吨))}对屈求偏导数.―0log―(L):o,f:o,l,…,t。。 。(1.9)ep,。求解该似然万栏组十分|查|难,’发甭显式解,但。J以遍过送代计舁元成。(爹见McCallagh Nelder[2]、(3】等。 三模型的拟合问题and为了判断实际数据与模型的拟合程度,在GLM中常用似然比对数的2倍作为拟舍优 度检验统计量。现以Y服从二项分布为例,可以算出l,=maxITI'C尊f!兀’<t2,?=i,1-B≤。:M一).P一?(”,P2cr4I,”(1-.)”“:o≤B,=1“一,n}J,?一,n}J,2=max博瞄州1-∥‘~:,og(p,/O―Pi)1l序,2=maX{丌瞄只”(B)1~一)=棚啦…,士)=彬,扛l,2,…,n}以上两式的最大值分别在p.=”/n.及p.=e。7(1+e^口)处达到,然后算得D(Y):2109(1ffl:)=z∑:.(,:-。s(r/n,;.]一(”。一z)-。s((”,一z)/一(-一多.))](,.?。)此处p=8。√(1+e。4)。可以证明当N固定,min(悻)-}oo且矩阵(x。…矗)有秩d时 ―――――――――――――――』二垒量壁堡型互堡篓董塑盔壅塑塑!塑壁旦 D(r)_÷z;一。.D(y)称为Deviance,在两个供选择的模型中Deviance小者为佳。Logistic回归的详细介绍参见参考文献[4]和王济川和郭志刚【lO],Hosmer and Leme’ show[11],AgreS‘i[12],有关Logistic回归的应用部分可参见缪柏其【13】,李莉[14】等。§1,3 Poisson回归和零膨胀Poisson回归模型一.Poisson回归模型设LuY服从Poisson分布JD(五1,其概率分布为f(Y,秒卅e-Aj[7办!=exp{ylog(丑)一丑一109(y9}=exp{y#一6(毋)+c(J,,矿)}它是指数型分布(1.1)的形式,其中口=log(2)=g(五)为自然联系函数, 6(臼)=五=矿,口(≯)=≠=1,c(y,≯)=一log(y!)。易见E(j,):va,.(r):五。设有k个因素五,…,鼍影响Y的取值,称g(z)2log(2)=属+届_+?一+屈≮兰风+x’∥为Poisson线性同归,其中层,眉,…成为术知参数。二极大似然估计n 12)设(r,一),i=1,2,…,厅为独立样本, ‘=(%,…,薯。),则似然函数为巧服从Poisson分布Pf五),此处£(成,∥)=丌mV4例=兀抓∥邶Y,e_eN*ed少。!]此处p’=(风,届,…辟)。两边取对数得Iog(z)=∑:。[M僻+眠)一毋~乩g(只!)]对屈求偏导数得(¨3)警地删,…,≈该似然方程组无显式解,同样通过迭代计算完成。 三模型的拟合 类似上文,我们用Deviance来衡量拟合程度,对Poisson回归,令(114)‘=maxtr!ea4“/以!:os丑≤o。,,=】,2,…,胛} 广义线性模型方法在森林火灾问题中的应用=m宅苦,● ,、●l。兀ⅢP一^丑"y^=eA+彬,i=l,2,…,以上两式的最大值分别在互=只,i=1,2,,H及五:gE十。4处达到,因此D(r):2109(‘/f2):2∑:,y,log(只)-y,-yilog互+五1\/=z∑,n:,『M?。sf只/五)一(y,一五)]四.零膨胀Poisson回归 零膨胀Poisson(ZIP)回归模型满足P(r=儿I一)=只+(1-pj)e一4若M=0 (1.15)=(1-p,e一‘矽/y。!若只≠0它是由下列两个分布混合而成的混合模型,1退化为零的分布,茳生概率幺,氓与zl南关,p?百j襄为Pi=l/(1彬“以)a)具有发生概率1一P,的部分为通常的Poisson分布,其均值E(誓)=丑=e枷,其中自变量为z。和Xi(z,可以为‘或者t的一部分,也可以为其他变量)。 关于ZIP的详细介绍参见Simonoff[15],Zorn[16],Lambert[17],Cameron f181,Winkehnann f19】等。and Trevid§1.4森林火灾研究现状及本文主要内容 中国是森林火灾多发的国家之一。森林火灾对植被和生态造成严重破坏,危及人类的 生存造成严重的经济损失。为了防治森林火灾,需要研究对火灾发生的预报。由于森林火 灾的发生受到气象条件,植被条件,地形条件和人类活动的共同影响,所以通过对这些因素的分析从中找出有用信息,可以为火灾预报提供依据。在美国、加拿大和澳大利亚等国已有深入且系统的相关研究成果,发展了森林火灾分级方法,通过对多种气象条件的分析 确定火灾风险(详见参考文献[20】)。 国内己经有一些学者对森林火灾和气象条件的关系进行了研究,确定火灾与湿度温度 E|照等气象条件的关系(详见f2I】-[25】)。有些结果是令人满意的(如[201),但是这些研宄 都没有建立统计模型来对森林火灾数据进行预报。本文采用Logistic回归模型和零膨胀 Poisson回归模型描述森林火灾数据,进行了模型选择,对火灾发生的概率及发生次数进行 了预测。 本文所用数据是宋卫1亘11中所收集到的日本全国 1999 年和 2000 02.火和象气林森的年 广义线性模型方法在森林火灾问题中的应用灾数据。日本是中国的邻国,都受到太平洋季风的影响,森林类型也相近,相比之下我国 的森林火灾数据收集还不完各。该数据为分级数据,它既可以看作分组数据,也可以当成 有序变量数据。 本文第二章用Logistic回归模型将数据分别视为分组数据和有序变量数据,进行建模。 对模型进行选择,最后用选出的分组数据模型FIRE.Iogitl和有序变量模型fire.1egit3对检 验样本火灾发生的概率进行了预测,结果表明两种模型都得到了比较好的效果。 本文第三章用零膨胀Poisson回归模型刻画森林火灾数据。由于火灾数据中的发生次 数项包含过多的0,logistic回归在处理这类问题时存在不足,零膨胀Poisson回归模型是 比较合适的方法。本章也将数据分别视为分组数据和有序变量数据进行建模和模型选择, 用选出的分组数据模型FIRE.zipl5以及有序变量模型fire.zipl6对检验样本火灾发生的次数 进行了预测,结果表明两种模型都得到了比较好的效果,其预测结果同logistic模型得到的 结果相当。 本文采用统计软件R--project计算,这是一个2003年刚刚开发出的统计软件包.其功 能还不完善,如无全集回归选择的功能,但它能进行零膨胀回归的计算。而常用的统计软 件。如SAS,SPLUS等还不能进行零膨胀回归的计算。因而选择这一统计软件进行计算。6 广义线性模型方法在森林火灾问题中的应用第二章火灾数据的Logistic回归分析§2.1数据预处理和探索分析宋卫国[1】等收集到日本全国范围内从1999年到2000年每天得气象记录,主要考虑 五种气象因素:湿度(hum),降雨量(rain),风速(wind),温度(tern),日照时间(sun)。每种气 参数从小到大分为5个等级.用0,1,2,3,4这5个数表示。本文将1999年的数据作为 检验数据(test data),将2000年的数据共3125项,其中绝大多数为0.但是其中包括根本没 有发生的天气组合,因而这些组合中的火灾发生的概率删失,为此我们删除这些无意义的 项。剩下1915项除了随机抽取大小为100的样本外,1815用于建模。大小为100的随机 样本作为预测之用。 1,数据预处理 (1)去掉天数为0(各种天气组合从来未出现过)的行。 (2)变量:humrain wind temsundaysfires其中days为offset变量,因为火灾发生次数(fires)的期望与总天数(days)成正比 数据格式(前10个观察为例):hum 4 6 8 9 12 14 27 28 29 31 O 0 0 0 O 0 O O 0 O 0 0 0 0 0 O 0 0 0 O表lwlnd 0 0 O 0 O 0 l 11 temdays 3 0 2 3lfireS0 11262 6 33 845 3 2 87 9l 2395 10440 0 0 0 0 0 0 0 0 0l 223 l 2 3 00 0 O ll其中第1列为数据的编号。 2.数据探索分析 (1)火灾发生次数的分布: 在1915种天气组合中,0火灾次数有1 547个,占80 78%,次数分布如下 广义线性模型方法在森林火灾问题中的应用表2tlresO1547 10l 167 11 2249 12326 134 19 1451561278 319 l94 20 l频数tlres81715 4 28316l频数IlreS5 2ll 40 110 23l3 241 44 23 25l 45 l3 3l222 241 130136l 75 l38l频数tlres43248l52l53 2851频数rlres90llOl1109115311671频数火灾发生次数的频数图如下Histogramof fires苦岳3F£L(2)湿度、降雨量、风速、温度和日照时间之间的相关性 Pearson相关系数如下:humhumraln表3ralnwind 一O.06153 ―O.012841temSUnl0.169588lO.140531 0.013011 ―0 01648l一O.12096 ―0.1126 ―0 04471 0.10082910.169588 ―O.06153 0.14053l ―O.12096windterllSUn―0 01284 O.013011 ―0.1126一O.01648 ―0.044710.100829由pearson相关系数,Spearman秩相关系数和kendall等级相关系数(后两个相关系数表 见附录A.1)可见湿度、降雨量、风速、温度和日照时问之问相关性都不高。 广义线性模型方法在森林火灾问题中的应用§2.2Logistic回归分析有理由相信数据火灾次数为0有特殊的原因。我们下面先考虑影响火灾发生与否的因 素,数据倒数第-y0 days可以看作是试验次数,而最后一列fires可以看作是试验成功的 次数,即fire服从二项分布:fires~B(days,p),其中的概率以如下形式受各个因素的影响: log(W(1一p))2a 即logistic回归。 1.首先将各个因素作为因子(factor) 因火灾数据是分组数据,每个因素从小到大分为5个等级,视每个非零等级为logistic 回归的白变量,即按照状态变量进行建模。首先将所有自变量都考虑进来,得到模型名称 为FIRE IogitO回归系数的估计量见下面的表。 表4(Intercept)一儿.4745 rain3 ―0.4026 tem214-卢IXl+岛x2+???+展‰huml ―0 5995 rain4 -0.297l tem3Ihum2 一1.2116 windl 0.5442tem4hum3 -2.3099 wind2 0 5298sunlhum4 ―3.6135 wind3 0 3811 sun2 0.7018rainl ―0.881 3 wlnd4 0 4679 sun3 0.9105rain2 ―0 7112teral1.8839sun4832926492l 7350.21640.747由附录一A.2可以看出FIRE.109itO中hum,rain,wind,tern,sull各个水平的效应都较为显著,具体说明如下:Hum(湿度):当hum的级别增加,失火的机会几乎是成比例的减少,从水平0,1.2,3 4的效应分别为0,.0.5995,.1.2116,.23099,.3.61346, 54,水平1失火的ODDS(事件的发生比)是0水平下的exp(一0 5995)=0 水平2失火的ODDS是0水平下的exp(.1 2116)=030,水平3失火的ODDS是0水平下的exp(一2 3099)=0.10, 水平4失火的ODDS是0水平下的exp(.3 6135)=0 027Rain(~F雨):与不下雨相比,下雨日_J失火的可能性耍小(回归系数<O) 加时,失火的机会(odds)反而增加,可能是下大雨时有雷电的缘故。 下雨水平分别为1,2.3,4时odds是不下雨的时候odds的exp(c(.0.8813 。0,2971))=0.414244,O.491055,O 668580,0.742970倍。比如 水平2失火的odds是水平l的e。p(一0.71 12-(一0.8813))=l 19倍但下雨的程度增.0.7112.一0 4026水平3失火的odds是水平2的exp(?O 4026-(-0.7112))=1.35倍,是水平1的exp(-0.3298- (-0 8409))=1.67倍,等等。9 广义线性模型方往在森林火灾问题中的应用Wind(有风):各个水平失火的odds与0(无风)水平相比大概为exp(0.4)=1.5-exp(O.5)=1.67 倍。各个风级别之间无大的差异。Yem(温度): Sun(阳光):sunl O 2164对失火概率有显著影响,但各个水平之间似乎差异也不大。 对失火概率大致上有单调增加的效应:sun2 0.7018 sun3 0.9106 sun4 O 7470综上可以看出把wind,tem分成2个等级(有.无,低.高)从而减少参数,简化模型后 得到名为FIRE logitl的模型的回归系数表如下表5l(Intercept)l―ll 47698rain3 -0.36855 sun4 0 62404huml ―0.6161l rain4 ―0 2743l 0hum2 ―l 25089 wlndl 54834lhum3 ―2.35016temlhum4 ―3 71324 Sunl 0.25556 -0.84433 sun2 0.71620rain2 ―0.67760 sun3 0.9258781 309由附录一A.3可见简化模型后hum,rain,wind,tern,sun各个水平的效应也较为显著、 下面再看看交互作用是否显著,首先考虑包括进所有的两两交互效应的模型。由输出 结果太长(有3页)故省去,几乎没有交互作用! 由于此统计软件无全集回归变量选择的功能,经变量不同组合的多次选择,确认前面 选出的FIRE.Iogitl为我们的最后logistic回归模型。即FIRE IogitI=glm(formula2fires/days~hum+rain+wind+tem+sun,family32binomial(1ink=logit),data=FIREl,weightsdays)是最后选用的模型。此模型选出的变量组合基本是显著的,故可用此模型作预测。预测按 下列公式计算: Log(p/(1一p))=?l 1.47698-0,6161 1‘/(huml)一1 25089‘l(hum2)一2.35016。l(hum3) -3.71324?I(hum4)一O.84433?I(rainl)+0.67760’1(rain2)一0.36855’I(rain3).0 27431?I(rain4)+O.54834?l(windl)+l 81309。I(teml)+0,25556。I(sunl)(2 1)+071620?l(sun2)+0 92587‘I(sun3)+0.62404。I(sun4),其中示性函数I(x)=l,当x>0,否则为0。2.将各个因素作为有次序的因子(factor): 我们就以原数据中的打分作为这些因子的SCOre(分值),比如下雨的从小到大5个等级 就打分为0,1,2,3,4.即可将这些因子看作连续变量对待,即将一个因子视为个变量,其10 广义线性模型方法在森林火灾问题中的应用等级看作该变量的值。Logistic回归模型fire.1egit0计算结果表明wind不显著t这可能是因 为上面(1)中所说的原因引起的,即wind虽然有效应,但各个非0水平比较一致,将 wind分成2个等级(有一无),windl代替wind,得模型fire logitl,其回归系数及显著性如下表:Deviance Residuals:Min.4.463921Q.0 50594Median―0 196083Q―0 05406Max6 33358表6Coe伍cientsEstimate .10 94853 .0.93256 .0.16276 wind temsunStd.Error 01883l 0 02253 0.02631 0 08401 O.15399 0 0200lZvaluePr(>tzl)<2e一16+++ <2e.16+++ 6.1 5e.10+}+ 1.6le.1 1+?+ <2e一16+}+ <2e.16+}+(Intercept)hum,58.14 -41_39l .6187 6.738 11.701 13 2760 56608 l-8019 0.26564AIC:2354 1Number ofFisher Scoring iterations:7现在wind现在非常显著。下面再看看交互效应是否显著:由带交互效应的模型firelogit2(详见附录一A.4)发现hum和wind,hum和SUN交互效应高度显著,因此考虑hum,rain,sun, tem,wind及交互效应hum:wind,和hum:sun是否显著,得下列带两个交互效应的模型 fire.Iogit3,其回归系数及显著’性检验结果如下表 表7CoeffiCientS Estimate ~9.11169 ~1 -0 windtemStd OError 32587 ―27.961 ―15 075 ―3.858 ―1.769 11.689 ―1 437 3 755 6 765Pr(>I zI)<2e一16}}+ <2e一16}{4 0.000114籼k{ 0.076850. (2e一16}{{ 0.150695 0.000173}籼P1(Intercepc)hum64179 10448O.1 089l O.02708 0 O 27567 15399~0 48773l79993-0.07711 hum:wind 0.39185 0.145l 30.05365 0.10435 0 0214533e―11{丰{Signif.codes:0‘++4。0.0011++。0.01’+’0 05|.’0.1’’1由上表我们发现sun和wind的主效应不显著,但hum与SUN及hum与wind的交互 作用高度显著,有理由认为hum与sun及hum与wind联合才有效应。假如要考虑有序变 量logistic模型,我们建议选用带交互效应的模型nre.Iogit3。记hum=zl,rain=而,win=X3,tem=04,sun205,即用og(p/(1一p))一9.1169-1641790l―O.1044802一O.48773 X3 广义线性模型方法在森林火灾问题中的应用+】79993x4。O 07711x5+O 39185x】x3+0 1451 3xlx5(2.2)作为预测模型。后面的预测结果表明这一模型的确比模型fire logitl要好。§2.3预测和结论1.预测 基于以上的logistic回归分析我们得到的结论为:hum,rain,sun,tem,wind都是高度显 著的影响失火与否的因素,而且hum,rain,sun都随水平的变化而单调变化,wind没有这 个现象(虽然直观上应该也有单调性),tern介于上述两种情况之间。 我们将首先用分组数据模型FIRE logitl来预测2000年火灾数据中大小为100的样本 集(定名为fire00),然后再用Fire.109itI预测1999年的火灾数据(定名为fire99)。通过预测的效果来评判所选择的模型FIRE.109itl的优劣。最后用带交互效应的有序变量数据模型firelogit3对两组检验数据fire00,fire99进行预测,并将模型FIRE.109itl与fire.Iogit3的预测效果进行比较。 预测值是火灾发生的概率,将其与试验的天数相乘,由二项分布的poisson逼近可知 最终获得的预测值是火灾发生次数。我们将给出预测值和观测值的对照表:预测值和观测 值的绝对误差的最大值,最小值和平均值:还将给出预测值和观测值的相对误差的最大值, 最小值和平均值,最后给出预测值和观测值的拟台幽及残差图。 注:相对误差=(火灾发生次数的观测值一预测值)÷观测值。 (1).用分组数据模型FIRE.109itl预测数据集fire00 因fire00共100个样本,其中火灾发生次数非0的有24个,用FIRE logitl预测这24 个数据.结果如下: 预测值和观测值的对照表:fires 3l 8 7表8 28 224 l lO 2 L 3 O31 1 O11l 0 llO4445 l O6 3 1 0预测值fires2l10 3 0O1 OO113预测值9O30预测值和观测值的绝对误差的最大值,最小值和平均值rain=0.01276564, mean=1 504912, max=5 245946,绝对误差<l的占50% 预测值和观测值的相对误差的最大值,最小值和平均值:nlin=一2 745951, mean=0.1914914, inax=0.9855182相对误差<0 5占42%,相对误差<1的占92%2 广义线性模型方法在森林火灾问题中的应用预测值和观测值的拟台图(观测值为黑色点,浅黑色为预测点,横轴为预测样本编号,纵轴为火灾数)0 index15图1预测值和观测值的残差图(横轴为预测样本编号,纵轴为观测值与预测值火灾数之差)冒 莒 ■妄g翌图2 由拟合图可见效果不错。残差图在0的水平线上下散布的越均匀越好,此图散布均匀。 预测绝对误差<1的占50%;预测相对误差<0.5占42%,相对误差<1的占92%.由对照表 和图1及图2可知预测效果较好。 广义线陛模型方法在森林火灾问题中的应用(2).用分组数据模型FIRE.Iogitl预测fire99 因fire99中火灾发生次数非0的有332个,用FIRE,logitl预测这332个数据,取其部 分结果如下: 预测值和观测值的对照表:Ilres表91 l 2 l l 1 l l 1 O 1 1l 7 22 4 l21一42 911 2 2l O l O预测值fi r'es3 1 OOl l34 3343 2b预测值O0O42OO预测值和观测值的绝对误差的最大值,最小值和平均值min=0 00i846466,illca.[1=2 390109, max=33.2858l,绝对误差<l的占52%; 预测值和观测值的相对误差的最大值,最小值和平均值:min=-6.011383, rtlearl=0.1795015, max=O.9993927相对误差<O.5的占50%,相对误差<l的占93%, 预测值和观测值的拟合图(观测值为黑色点,浅黑色为预测点:横轴为预测样本编号,纵轴为火灾数)芒o一050100150 Index200250300图3预测值和观测值的残差图(横轴为预测样本编号,纵轴为观测值与预测值火灾数之差) 广义线性模型方法在森林火灾问题中的应用莓兰窖 ■E百05口10D150 lnclex200250300图4由拟合图可见效果不错。残差图在0的水平线上下散布的越均匀越好,此图散布的比 均匀。计算结果表明预测绝对误差<1的占52%:预测相对误差<0.5的占50%,相对误差 <l的占93%,说明拟合的不错。 (3).用有序数据带交互效应的模型fire.Iogit3预测fire00 因fire00共100个样本,其中火灾发生次数非0的有24个,用fire logit3预测这24 个数据,结果如下: 预测值和观测值的对照表:139 tlres 3 l 364 7 3 398 28 15 938 4 l 42l 10 7 1024 3 l表1437 2 l045l503l 0 128i l O69l l 0830 l 0884 l 1 1440 1 3906 44 42 1470 l 0924 6 431预测值926 fires8 10928l 1¨233 012291 O1328Ll13481 O18581 0预测值(表中第一排是样本序号,第二排是火灾次数观测值,第三排是火灾次数预测值)预测值和观测值的绝对误差的最大值,最小值和平均值:rain=0 05388378,mean=1.751902,max=12 83197,绝对误差<1占50% 预测值和观测值的相对误差的最大值,撮小值和平均值:Min=.2.398752,mean=0 2135558,max=O.9787676相对误差<O.5占62 5%,相对误差<l的只占96%l 5 广义线性模型方法在森林火灾问题中的应用预测值和观测值的拟合图(观测值为黑色点,浅黑色为预测点;横轴为预测样本编号.纵轴为火灾数)10 index15图5预测值和观测值的残差图(横轴为预测样本编号,纵轴为观测值与预测值火灾数之差)o―o[x∞口L¨fpmJd-【x∞口量js口oo0 Index15图6由拟台图可见效果不错。残差图在0的水平线上下散布的越均匀越好,此图散布的比 较均匀。计算结果表明预测绝对误差<1的占50%;预测相对误差<0.5的占62.5%,相对 误差<1的占96%,说明拟合的不错。6 广义线性模型方法在森林火灾问题中的应用(4).用有序数据带交互效应的logstie模型fire.Iogit3预测fire99 因fire99中火灾发生次数非0的有332个,用fire Iogitl预测这332个数据。取其部分 结果如下: 预测值和观测值的对照表:fiFes l 1 1 l O 1 l 15 7 l 0 1表11l11 1024 17421 7 42 Ol21 1ll O l2 O 44预测值tlresO1204O 25 252l 03 23 1532 32预测值4OO0O38预测值和观测值的绝对误差的最大值,最小值和平均值min=0 0008322126,mean=2 929589,max=77 1896,绝对误差<1占49% 预测值和观测值的相对误差的最大值.最小值和平均值:Min=一7 395044,mean=O l 372659,max=O 999148l相对误差<0.5占48.5%,相对误差<1的只占93.4%预测值和观测值的拟合图(观测值为黑色点.浅黑色为预测点:横轴为预测样本编号.纵轴为火灾数)050100150 index200250300图7 广义线性模型方法在森林火灾问题中的应用预测值和观测值的残差图(横轴为预测样本编号.纵轴为观测值与预测值火灾数之差)o∞o∞o寸o“【x∞pu¨paJQ.【x∞pu|】sqoo印∞钟Ⅲ娜柚州默图8由拟合图可见效果不错。残差图在0的水平线上下散布的越均匀越好,此图散布的比 较均匀,只有少数点偏差较大。计算结果表明预测绝对误差<1的占49%;相对误差<O 5的 占48.5%,相对误差<1的占93,4%,说明拟合的不错。 2.结论 终上所述,将火灾数据看作有序样本作预测的结果与将火灾数据看作分类数据作预测 的结果差不多,有序样本带交互效应的logistic回归模型略好一些。故本文用分类数据 logistic回归模型FIRE.109itl和有序样本带交互效应的logistic回归模型fire logit3作预测皆可。 广义线性模型方法在森林火灾问题中的应用第三章零膨胀Poisson(ZIP)IN归§3.1引言及模型上文的Logistic回归严格意义上看不是非常合理。即我们假设了火灾次数fires是总数 为days的Bernoulli试验中的成功次数,但其实fires可以大干days(比如一天可以发生多 起火灾)。以下我们用Poisson回归来分析此问题,本质上与logistic回归分析应无大的区 别,但Poisson模型可以避免(fires>days)现象的不好解释,另外是重要的是可以对0过 多进行建模。1_零膨胀Poisson(ZIP)回归: 上面的分析没有单独对火灾数据中0次数过多的现象做出解释,为此我们以ZIP模型对数据进行分析,即假设数据晟后一列的计数fires服从一个混合分布尸(归P=k)=P(fire=klY=O)P(y=0)+P(fire=kIY=1)P(y=1)=Pz(k=O)+(1一P)?(才/kOexp(一五)其中P(y=0)=P,P(y=1)=l―P,k>0时JD(fire=kIY=0)=0,k=0时 P(fi,.e=k J芦=0)=1,k>0时∥Pfy=l~P(五)。某些天气组合以某个概率p根本不发生火灾,事实上70一80%左右的天数没有火灾,这可能与天气组合有关,也可能与其 它一些没有统计的因素有关,即假设这些天没有失火的必要条件;另外的一些天具备火灾 的条件(当然也未必一定起火),发生火灾次数服从Poisson分布。 注意:p是0膨胀部分的比率。 2.ZIP假设: (a)log(,/(】一p))=a+6‘z,(zicounts输出中以z表示影响p的协变量)(b)^=exp(口+∥’x)(zicounts输出中以X表示影响五的协变量)这里z-X可能相同,也可能不同。 3.使用ZIP所关心的主要问题有: (a)影响零膨胀部分(即不具备起火条件的部分,既起火概率很小的部分)概率的因素, 条件,或因素水平的组合,比如雨很大而温度又特别低的天气情况下~般不会有火灾,这 种天气组合下的零膨胀概率应该很大。 (b)在有起火的条件时,影响火灾次数的因素。§3.2零膨胀Poisson回归的统计分析1.首先将各个因素作为因子(factorl 广义线性模型方法在森林火灾问题中的应用由于这是分组数据,首先将因素作为因子看待,每因子有5个水平,但0水平可不考 虑,因为它在回归项中为0。首先考虑logistic和Poisson部分各有5个因素,即hum(湿 度),rain(降雨量).wind(风速),tern(温度)和sun(日照时间)。看看哪些是主要的。采用 zicounts统计包软件。建模数据仍用2000年的191 5个数据,其中用从中随机抽取的大小 为100的样本(称为fireOO)}N 1999年的火灾数据(称为fire99)作为检验数据(testdata)。 首先将所有变量都考虑进来进行建模,ZIP模型FIRE.zipO两部分的回归系数见下表:表12 (Intercept)x―13.3703 humlxhunl2x j 7265 windlx O 237hum3x l,3493 wind2xlhum4x 0 722 wind3x 0 58儿 ―3 9034 wi nd4x 一1.9242 SUn3x 0.8577rain2x ―3.9781 ternlx 2.3678 SHn4x一l1.9504 rain4x-4.0562 tern2x 2.2477―2 439l tem3x 2.0225 humlz ―0 3389rain4z2245tenl4x 2 44 hum2z一l i475S LIFIlxsun2x 0 6757 hum4z 0 2j96 wind3z 1.4177 sun2z0.3775 hum3z一l5732(Int;ercept)z3.1848 rain3z 3 9055 tenl2Z 一2 1863rain2z 7.883l wind4z364994.4648temlzwlndl2 ―1.1355 tern4z 一1.5605wlnd22 ―0 48543.4354 tem3z ―0 85191816―1.4478 SIIn4z 2.1122sun3z 0 82850.46590.6026其中x是poission部分的系数,z是零膨胀部分的系数。 各变量的显著性详细情况见附录一B.1 (1)零膨胀部分(不起火的部分) 零膨胀可能是某些天气组合不具备下雨的条件,也可能是某些潜在的没有记录的因素 决定了不会起火,可观察的z对0膨胀概率P的效应如下:log(p/(I―p))=a+b。z上面的模型中的0膨胀概率(不可能起火概率)中的回归系数为 表13 (Intercept)z3.1848 rain3z 3.9055 tem2z一2 1863huml2hum2z一1.1475hum3z ―1.6499 wind2z ―0.4854SUnlZhum4z 0.2196 wind3z1.4177 sun2zralnlZrain2z4―0.3389 rain4z 3.4364 tem3z 一O.85197.883l wind4z 3.1816 sun3z 0,82854648windlz 一1.1355 tem4z―1temlz―1.4478 sun4z 2.112256050.46590.60260膨胀概率最小的,即可能起火的概率最大的天气组合为hum3+rainO+windl+tern2+SUnl其概奉为 广义线性模型方法在森林火灾问题中的应用P2exp(3.1848?1,6499+O―1.1355―2.1863+0.4659)/(1+exp(3.1848―1.6499+0.1.1 355―2 1863+O4659))=0.2ll即这种天气组合下根本不发生火灾(即发生火灾为0)的概率为0.2ll,也即在这种天气组 合下最有可能会发生火灾,其概率为1-0.211=0 789。这种天气特征是很潮湿,不下雨.微 风,温度比较高,太阳不算剧烈。 另一方面,0膨胀概率最大的(可能起火的概率最小的)天气组合为humO+rainl+wind4+tern0+sun4其概率为 P。exp(31848+0+7 8831+31816+O+2.1122)/(1+exp(3 1848+O+7.8831+3 1816+0+2.1 122))=0.999997也即在这种天气组合下最不可能会发生火灾,其概率为1―0 999997=百万分之三。这种天气 特征是不潮湿,下小雨,刮大风,温度低,太阳剧烈…实际不可能出现。实际上rain的 效应比较大,当下雨时(比如其他因素都为0时),属于0膨胀的概率P=exp(3.1848+7 8831)/(1+exp(3 1848+7.8831))=O 99998几乎不会有火灾(p=l一0.99998=2/100000) 其他一些系数解释需要仔细考虑,有些有道理,有些可能没道理,没道理的可能与数 据量不足有关,比如sun4效应也很大,为2 1122,比如其他因素都为0时属于0膨胀的概 率P2exp(3.1848+2.1122)/0+exp(3.1848+2 1122))=O9950,发生火灾的可能性为1.O 9950=0.005,太低。可能的解释 (i)天气太热,无人在外,所以人为的火灾几乎没有。 (ii)上面的解释不很说的通,最可能的原因是sun=4,而且有火灾的数据量只有26个观察 由信息的数据量不足。 (2)Poisson部分 上面的模型中Poisson部分的同归系数: }(Intercept)x―l 3.3703ralnJX表14hum3x 1.3493 wind2x 1.2245s klnlxhumlXhum2x 1.7265 wfndlx 0.237tem4xhum4x 0.722 wind3x O 581l sHn2x 0.6757 ―3.9034 wind4x 一1.9242SUnJxrain2xi.9504 rain4x -2.4391 tem3x 2.0225―3.9781 temlx 2.3678sun4x一4.0562tem2x2.24772.440 37750.8577一1.5732E(火灾次数)=eXp(口+口’x)Hum的效应为正,说明hum越大,火灾次数越多,rain效应最大(负的效应),雨越 大,火灾次数越少,等等。2 广义线性模型方法在森林火灾问题中的应用另外,Poisson部分结果解释: 有x的部分是对火灾次数均值的效应,humlx=1.9504表明湿度从0增加到1,log(期 望次数增加)增加1.9504,等等。有z的系数是对0膨胀概率P的效应.windlz一1 1 355表明,有风时的0火灾ODDS是没风时的exp(一1.1355)=O.32倍 上述选出的因子中Poisson那部分变量不够显著,或许不是由所有观察到的天气因素 决定的,或其他的一些原因(变量取舍等等)。 由于此统计软件无全集回归变量选择的功能,经多次选择,F列的变量组台是显著的。 由前面第二章中所述,wind,tern的级别对起火的影响无大的差别,我们将这2个因素的水 平合并成0,1两水平获得如下ZIP模型FIRE.zipl5,其回归系数的估计量如下表 表1 (Intercept)x一12.97567temlxraln5LXrain2x 0.0417lsun2xrain3x 一0,55679sun3x 1.312l rain4zrain4xW1ndl×―0.74675SUnlX一l,05073sun4x0.70393(Intercept)z0.32346temlz1.17645rainlz 4 114840 21423 rain2z 5.4218l0 92568 rain3z 3.216850 88754windlz3.0772~1.62577―3.19005选出的变量组合基本是显著的(参见附录一B.2),故可用下列模型FIREzipl5作预测log(p/(1-p))=O 32346十4.11484‘I(rainl)+5.422。l(rain2)+3.217‘I(rain3)+3077?I(rain4)一1.626。l(wind)-3.19。l(tem)(3 1)log(五)=-12.97567-0.74675’I(ra[n1)+O,0417l‘I(rain2)、O 55679’I(rain3) 一1.05073-I(rain4)+0.70393?[(windl)+1 17645?I(teml)+O 21423’I(sunl) 十0.92568-I(sun2)+1.31210?I(sun3)+O 88754‘I(sun4) 此处I(x)为示性函数,如公式(2 1)所述。 2.将各个因素作为有次序的因子(hetor): 我们就以原数据中的打分作为这些因子的score(分值),Lt,女D下雨的从小到大5个等级 就打分为0,1,2,3,4.即可将这些因子看着连续变量对待。ZIP回归模型fire.zipl的计算结(3.2)果见附录2一B.3,由p-value值可见一些因素不显著。由于此统计软件无全集同归变量选择的功能,经多次选择,F列模型fire zipl6的变量 组合基本是显著的: 广义线性模型方法在森林火灾问题中的应用表16CoeffiCientSEst imateStd.Error 9.577E一02 2 795E―02 3.164E一022.7 JlE―02ZValUePr(>|zI)0.000E+00 8.013E一290 7.805E―03 6.368E-01 6.457E―082.765E一28(Intercept)XhumxralnX一8.659E+00 一1.017E+00 一8.417E―02l―9.042E+01 ―3.638E+0l ―2.660E+00 4.722E―01 5.406E+00 1.103E+01 ―3 626E+00 5.600E-0l 1.78lE+00windxtemxSUnX280E―02I.095E一0l 2.43lE―01一1 94lE+002.026E-02 2,204E―02 5.353E―012.1 38E一01(Intercept)ZhumzralnZ2.874E一04 5.755E一01 7.494E一021.198E一01 2.177E一0l1.223E一01其中x是poission部分的系数,z是零膨胀部分的系数。 模型fire zipl6所选出的因素是较显著的,若选用fire zipl6作为预测模型,即用 log(p/(1-p))一1.941+0 1198(humz)+0.2177(rain) log(五)=?8 659一1.017(hum)?0 08417(rainx)+0 01280(windx) 一0.1095(temx)+0.2431(sunx) 作为预测公式。(3 4)(3.3)§3.3预测和结论1.预测 我们将首先用分组数据模型FIRE.zipl 5来预测2000年火灾数据中大小为100的随机 样本集(fire00),然后再用Fire zipl5预测1999年的火灾数据集(fire99)。通过预测的效 果来评判所选择的模型FIRE.zipl 5的优劣。最后用次序变量数据模型fire.zipl6对两组检验数据集fire00,fire99进行预测,并将模型FIRE.zipl5与fire.zipl6的预测效果进行比较。预测值是火灾发生的平均次数,即E(Y)=A=exp(a+声1X)。我们将给出预测值和观测值的对照表;预测值和观测值绝对误差的最大值.最小值和平均值;还将给出预测值 和观测值的相对误差的最大值、最小值和平均值,最后给出预测值和观测值的拟合图及残差图。(1).用分组数据模型FIRE.zipl5预测数据集fire00 因fire00共100个样本,其中火灾发生次数非0的有24个,用FIRE zipl5预测这24 个数据结果如下: 预测值和观测值的对照表: 广义线性模型方法在森林火灾问题中的应用表1711reS3 07 l 128 16 4 1lO 6213l 1 O1l 0 l 2l 0 l O144 80 1 365 1 2预测值rlresOl 0018 193l3 2预测值126预测值和观测值的绝对误差的最大值,最小值和平均值:min=O 05577793,mean=4.82981,max=36 67765,绝对误差<1的占46% 预测值和观测值的相对误差的最大值,最小值和平均值:min=?25 14399, mean=-0 9847567, max。O 9826243相对误差<O 5占38%,相对误差<1的占79% 预测值和观测值的拟合图(观测值为黑色点,浅黑色为预删点:横轴为预测样本编号.纵轴为火灾数)导。 n 凹5 8曷。51015index图9预测值和观狈0值的残差图(横轴为预测样本编号,纵轴为观测值与预测值火灾数之差) 广义线性模型方法在森林火灾问题中的应用百 罢 亏 々 蔷 罟 翌1015index图10由拟台图可见多数火灾数据拟合还可以,但有些值偏离较大。残差图在0的水平线上 下散布的越均匀越好,此图散布的还算均匀。由预测的绝对误差<1的占46%;预测相对 误差绝对值<O.5占38%,相对误差绝对值<1的占79%.由对照表和图9及图10可知预测 效果尚可。 (2).用分组数据模型FIRE.zipl5预测fire99 因fire99中火灾发生次数非0的有332个,用FIRE.zipl5预测这332个数据,其部分 结果如下: 预测值和观测值的对照表:fires 4表182 l 13 2l32 2 l4 7 2 l917 2l l l 21 1 13 3l l1|预测值fjres31 l51O2113l 1I预测值624133预测值和观测值的绝对误差的最大值,最小值和平均值rain=0 0143】299, mean=5 53298, max=102.5083,绝对误差<l的占43% 预测值和观测值的相对误差的最大值,最小值和平均值:rain=一17.83373,mean=?0 2384713,max=O 9993984相对误差<0 5占35%,相对误差<1的占83% 广义线性模型方法在森林火灾问题中的应用预测值和观测值的拟合图(观测值为黑色点,浅黑色为预测点,横轴为预测样本编号,纵轴为火灾数)∞Pc30uo50100150 index200250300图11预测值和观钡4值的残差图(横轴为预测样本编号,纵轴为观测值-5砌JJ值火灾数之差)―x∞可[一#《.一x∞口c=∞o050100150200250300Index图12 广义线性模型方法在森林火灾问题中的应用由拟台图可见多数火灾数据拟合还可以,但有些值偏离较大。残差图在0的水平线上下 散布的越均匀越好,此图散布的比较均匀。由预测的绝对误差<1的占43%:预测相对误 差绝对值<0 5占35%,相对误差绝对值<1的占83%.由对照表和图11及图12可知预测 效果尚好。 (3).当成有序数据模型用fire.zipl6预测数据集fire00 囡fire00共100个样本,其中火灾发生次数非0的有24个,用nrezipl6预测这24 个数据,结果如下: 预测值和观测值的对照表:139 fi[es 3l 926 fires表194213647398 2815437 2l 1123451 3l 1229 l503169l18301884L l906 4444 1470 l9246 4107预测值3 9281 10128】 lO 1328l 20 134819384 11024 3l1440l 41858l l883l预测值0000(表中第一排是样本序号,第二排是火灾次数观测值,第三排是火灾次数预测值)预测值和观测值的绝对误差的最小值,平均值和最大值:min=0.1269207,mean=1.698182,max=12 56039,绝对误差<l的只占54% 预测值和观测值的相对误差的最大值,最小值和平均值:rain=-3.156165, mean=0 1217569, max=0.97948,相对误差<0.5只占54%,相对误差<1的只占92%, 预钡4值和观测值的拟合图(删测值为黑色点,浅黑色为预测点,横轴为预测样本编号,纵轴为火灾数) 广义线性模型方法在森林火灾问题中的应用图13预测值和观测值的残差图(横轴为顸测样本编弓,纵轴为观测值与预测值火灾数之差)o广o【x∞早=掣卜.【×∞罄u1sDoo图14 由拟合图可见拟合效果相当好。残差幽在0的水平线上下散布的越均匀越好,此图散 布的较均匀。由预测的绝对误差<l的占54%:预测相对误差绝对值<0.5占54%,相对误 差绝对值<l的占92%.由对照表和由图13及图14可知预测效果较好。 (4).当成有序数据模型用fire.zipl6预测数据集fire99 因fire99中火灾发生次数非0的有332个,用fire zipl6预测这332个数据。部分数据如下:预测值和观测值的对照表:28 广义线性模型方法在森林火灾问题中的应用表20fires 2 O67 41O2 1l 0 L 052 I 12 l 1l 0l 0 l 02l 4415 10 lf预删值ffres8732 3625 28242l2319l预测值O5O0430预测值和观测值的绝对误差的最大值,最小值和平均值min=O.001 872196. mean=2 8448|1.max=78 25635绝对误差<1占51% 预测值和观测值的相对误差的最大值,最小值和平均值rain=-9.5787, meanO 02662707=, max=0 999176相对误差<O 5占57%,相对误差<1的占92 5% 预测值和观测值的拟台图(观测值为黑色点,浅黑色为预测点;横轴为预羽9样本编号,纵轴为火灾数)050100150200250300lndex图15预测值和观测值的残差图(横轴为预测样本编号,纵轴为观测值与预删值火灾数之差) 广义线|生模型方法在森林火灾问题中的应用Ix等uJ 】c-{x∞DuJ】snoUbU1UU1bU200250300Inde×图16由拟台图可见拟台效果相当好。残差图在0的水平线上下散布的越均匀越好,此图散 布的较均匀。由预测的绝对误差<1的占51%;预测相对误差绝对值<O 5占57%,相对误 差绝对值<l的占92 5%由对照表和图1 5及剀16可知预测效果较好。 2.结论 上述的预测结果表明将火灾数据当成有序变量和当成分类数据模型作预测的结果都较 好.当成有序变量的模型fire.zipl6要好一些。综上所述,本文用FIRE zipl5分类数据ZIP 回归模型或fire zipl6有序变量数据ZIP模型作为预测模型皆可。 若将第二章的logistic回归模型预测效果与第三章的ZIP回归的预测效果相比,两者没 有显著的差别,相差很微小,logistic回归模型略好一点。ZIP同归模型的优势在于能较准 确的预测0膨胀的部分,即对于不发生火灾的观测值预测较好。 一一.[墨垡堡竖型垄堕垄查苎坐壅塑望!塑壁旦参考文献川Nelder,JA.and(1972),370-384 [2]Grizzle,J.E504 etal,Analysis of categorical data by linear models,Biometics,25(1969),489―Wedderburn,H WM,,Generlized linear model,J.RoyStatist.Soc.A.135f3JDempster,A P.,Anoverviewof multivariate data analysis,Joumalof MulitivariateAnalysis,1(1971),316~346. 【4】McCullagh,RHall,1983 and Nelder,J.A,Generalized LinearModel,London:ChaDman andfSlgahrmeir,L.,Kanfmann,h,Consistency and asymptotic normality of maximum likelihoodestimator in generalized models,Ann Statist.,13(1985),342--368Basedon【6]FahrmeiLL.,Kanfmann,h.,Mulitivariate Statisticl ModelingModel,New York:Springer-Verlag,1994.Generlized Linearf7jHardin,J-and Hilbe,j-,Generalized Linear Models and Extensions.College station:Stata Press,2001[8】陈希孺,广义线性模型(一)(一),数理统计与管理,21(5).54―63;21(6),57―64。 [91陈希孺,广义线性模型(三)(四)(五)(六),数理统计与管理,22(1),51―57: 22(2),56―63;22(3),56―63;22(4),55~64 [10】王济川,郭志刚,Logistic回归模型~方法与应用,北京:高等教育出版社,2001.…JHosmer,D W and Lemesho%S,Applied Logistic Regression,2”.Ed,New York:Wiley,2000.[12】Agresti,A,AnIntroduction to Categorical DataAnalysis,NewYork:Wiley,1996.U31缨柏其,肖婕,宁静,脂肪肝及其影响因素分析一中国科学技术大学体检专向调查, 数理统计与管理,2001,20(3).10―12 【14]李莉,张薇,缨柏其,戴小莉,影响本科生学习成绩因素的探讨和分析,中国高等 教育评估,2004,第四期,44.47. [1 5]Jeffrey S,Simonoff,Analysis [16】Zorn,C.J W,An analyticCategorical Data,New York:Springer,2003.and empirical examination ofZero--Inflated and hurdle Poissonspecifications,Sociological Methods and Research,26,1 998,368.400.[171Lambert,D,Zero?InflatedPoissonRegressionwithapplicationtodefectsinmanufacturing,Technometrics,34,1992、1.14[1 8]Cameron,A.C.andTrevidi,RK.,Regression Analysisof CountData,Cambridge?Cambridge University Press,1998 广义线性模型方法在森林火灾问题中的应用[19jWinkelmann,R.,Econometric Analysis OfCount data,3rd.ed.,Berlin:Springer,2000.f20]宋卫国、马剑等,日本林火发生概率的神经网络预测,己投《中国工程科学》 【21】付泽强、陈动、王玉彬,内蒙古大兴安岭春季特大森林火灾发生的气候条件分析 东北林业大学学报,1997,11『221周来法等.气象因子与森林火灾相关分析,浙江林业科技,1998,8. 【23】杨光勇等,黔南州森林火灾季。*性分析,贵州林业科技,1997,3 【241杨兰贵,贵定森林火灾气候分析(j),贵州气象,1999,1 『25]蔡水坚,森林火与气象条件的影响.湖南林业,1997,10. 广义线性模型方法在森林火灾问题中的应用附A.1关于火灾数据的相关系数Spearman秩相关系数如下hum hum 0 windtem录wind O.1 502757 l ―0 0【3169 0 0128149 ―0.060562 ―O 013169lteml 1502757O1345997一O 11439 ―0 10829 -0 042362 0.094298l0.0128149 -0 016468l一0.060562 0 ―0 1345997 11439一O 016468 ―0 042362―0.108290.094298Kendall等级相关系数如下hum hum l 0 1226276 windternwind 0 12262761tem―0 049044 ―0 010578 l 一O 01323 ―0 034265O1094435―0.093931 ~0 087459 一O.034265 0 0756875 lO 0102502 一0 01323 1 0 07568753一0 049044 O 1094435一O 010578 O 0102502 ―0 087459―0 093931A.2.关于分组数据logistic模型FIRE.109itOsummary(FIRE IogitO)Call:glm(formula=firas/days~hum十rain十wind+£em+SUn.family=binomial(1ink二Iogit).data2FIRE,weights=days)Deviance Residuals:Min-3 82868.0 42781leMedian’3Q4 33995Max-0 1 5957―0 03918CoefficientsEstimateStd.Error 0.22771 0 12814 0.12703 0.13381O.16923ZValuePr(>fZf)<2e一16木¥水 2.89e―06}}} <2e―16木丰丰 <2e―t6%}{ <2e―16}{{ 9.74e―08丰卓半 0 000354}}十 0.057034. 0.006860{十(Intercept)huml hum2 hum3hum4一11.47452 ―0.5995 一1.2U59―2 30989 ―3 61346―50 392 ―4.679―9538一17 262―21.353―5 332一O.88129rain2raln00.1653O 19909一O.7112―3 572 一1.903 ―2.704―0.40264 ―0.29708O.21158 O.10989rain4 广义线睦模型方法在森林火灾问题中的应用windl wind20.54418 0.5298l 0.38106 0.46786l0 08486 0.09278 0.12436 0.16776O6.4131.43e一10%¥¥ 1.13e一08{¥{ 0.002183扣# 0 005290}} <2e一16丰丰丰 <2e―16}毕丰1.07e一14半}球 <2e一16丰术木5 71 3.064 2.789 12.04811 662 7 73wind3 wind4teml tem2 tem3 tem4 sunl sun28839215636i.83287 1.26495 2.17352 0 2164l 0.70176 O 91055 0 747020.15716 0.16364 0.1623 L 0.08855 0.0814l 0.08414 O 1263513.3912.4440.014530} <2e一16%水丰<2e―16木丰木8.62 10.8225.912Su03sun43 38e―09{}{(Dispersion parameter for binomial family takenNull deviance: 5289 22on ontobe 1)1814 1794degrees offfeedom degrees offreedomResidual deviance:990.34A【C:2046 4Number ofFisher Scoring iterations:7发现wind和tern但各个水平之间似乎差异不大,我们可以把wind,tem分成2个等 级(有~无,低一高)从而减少参数,简化模型。A.3.关于分组数据模型FIREsummary(FIRE logitl)Call:logitlglm(formula=fires/days~hum+rain+wind+tem+san.family=binomial(1ink=logdata2t1FIREl,weights2days)Deviance Residuals:Min.5 506291e―0 43650Median.0 162353Q.0 04038Max5.1 8114CoeffieientSEst imate 一11.47698 一0 61611Std,Error 0 22291 0.12738 O.12387 O.12693 0.16121 0 i6515 0 19898 O 21145 0.1102【 0.08405ZVaLUePr()【zI)<2e-16扣}半l(Intercept)huml hum2―51487―4 83732e―06¥丰车 <2e一16丰丰丰 <2e一16木木卓 <2e一16半丰术一1.25089 ―2.35016 ―3.71324 一0.84433 一O.6776―0 36855―10.098 ―18.516 ―23.033―5.113hum3 hum4rajn】3.18e一07丰{术rain2ra J―3 405―1 7430 00066l¥¥¥ 0.081335. O.012808半 6.85e―11丰半4n3rain4 windl―0.2743l 0 54834一2.489 6.524 广义线性模型方法在森林火灾问题中的应用teml sunl sun21 813090.15417 0 08856 O.08127 0.08164 O.12198ll,76l 2.886 8.813 11.34 5.116<2e一16水丰木 0.003905{十 (2e一16{}} <2e―16}}十 3.12e-07{丰丰0.25556 O.7162 0.92587 0 62404sun3sun4(Dispersionparameter for binomial family taken to be 1)on onNull deviance:5289.2 Residual deviance:1 1 67.2 AJC 221I 41814 1 800degrees offreedom degrees of freedomNumber of Fisher Scoring iterations:7可以看出把wind,tern分成2个等级(,fl--无,低?高)从而减少参数,简化模型后hum,rain, wind,tem,sun各个水平的效应也较为显著。A.4.关于带交互效应的有序数据模型firesummary(fire.Iogit2)Call:2logit2glm(formulafamily2fires/days~(hum+rain+wind+tern+sun)“2,binomial(1ink=Iogit),data=fire 1,weights=days)Deviance Residuals:Min.5 282321Q―0.49880Median.0.195523Q.0.05396Max6.48150zCoefficientsEstimateStdlErrorvaluePr(>l zf)4.57e一15丰丰木 (2e 0 16丰半丰(Intercept)humraln一9 90692一1.7798326392―7.838 ―8 476―2 30 20999 0 34939 1.06661 1.22423 0.22578 0.0384l O.110440.1777―O.8036O021447} 0.972145windtemSUn037240 03522.99015 0.08502 O 106490 419574420.014587¥ 0.706499 0.005566}¥0.377 2.772 3.799O.53lnUm:ralnhum:windhum:tein0.000145{#0.59525 7 50e-i1{}} 0,577755 0.424751 O.O】1444水 0.389397 0.063901 0.1253680 0944 0.149470 02296 0.09969 0.30889 0.0268316.51 0.557 0 798 2.529―0.86lraln:wlnd0.0555 0.24655raIn:SUnO.06784 -0Owind:temwlnd:Sun87693 14173O【8840.07649 0 20704to1,853一l一O.31731 -(Dispersion533parameterfor binomial family takenonbe 1)Null deviance:5289.21814degrees offreedom35 广义线性模型方法在森林火灾问题中的应用Residual deviance:1 239.3 AIC:2285 4on1 799degrees of freedomNumber ofFisher Scoring iterations:10B.1.关于分组数据ZIP模型FIRE.zipO变量的显著性summary(FIRE zip0)Zero.【nfiated Po】ssonCall:Formula2 Subscripts:一x一-zfires~hum+rain+wind+tern+sunl hum+rain+wind+tern十sun(with offest)coefficients of Poisson part coefficients ofzero―inflated partCoefficlentsEst imate ―l l lStd Error 2 54lE一0l 2 283E一0I 2 279E一0l 2 285E一0L 2 316E一0t 3 845E一0l 6 445E一0l 6 683E―01 1.175E一01 3.539E―02 一1 I Llower 387E+0lupperZvalue 262E+0lPr()fZJ)(Intercept)xhumlX hum2x hum3x hum4x337E+01 950E+00727E}00―l 287E+Ol 2 2 l一50 000E+00 l_300E―17 3 569E一14 3 526E一09 l 829E―03 3 207E 24503E+00280E+00398E+00173E+008.544E+007 5 576E+00L.349E+00 7 -39 014E一0l 2 一4 -5 ~5 -2797E+00905E+00220E一0l903E+00 978E+00680E一0l657E+00 24lB十00 366E+00l_176E+00 ―3 150E+00 一2 715E十00 ―2 746E+00 ―2 209E+003.117E+00 一l ―6 015E+0l 172E+00rain2x rain3x raln4x一36 735E一10 1.283E―09 l_146E一95 24 056E+00 一2 2 l 439E+00―6 070E+00 ―2.075E+0l 6.696E+00 3 9 29lE+Ol 468E+00669E+00windlxwind2x wind3x wind4x temlx te:『}2x tem3X tem4x SUnlx sun2x sun3x sun4x370E一01 224E+00l 676B一01 1.152E+003.063E一0l1 7 一l 2 2 2 2 4 7138E―113 721E一026 3 1 1 137E一02 406E一0l 007E一01 009E一0l297E+00 013E一01257E+001.835E一23725 811E-01 l 924E+00 2 358E+00 2 248E+004.608E一0L-2 2 2 592E+00 170E+00 050E+DO844E一21―5 649E+00 2 2 352E+0l 229E+0l1.616E一08 2.580E一122 4 993E一110 9565E+00 445E+00 222E+00 640E+00 499E一01 438E-0l294E一0l2.022E+00 2 440E+001.018E一011 023E1.823E+00 21 986E+0l271E一880l239E+002.385E+0l1.02IE+Ol l9.705E―126 1.75lE一243 775E 01 68 757E一01 577E3 696E 023 33.050E-Ol 6 7477E-02 657B一02075E一0l 861E一01943E+Ol3.978E一84 l_150E一12l4 798E一270l9一i 52.346E+0 L ―1 2 077E+01 883E+00―1.573E+00 3一3 ―l ―l4 610E―02 l一l_860E+00287E+00 350E{00(Intercept)ahumlZ hum2z hum3z hum4z185E+00389E一01 148E+00 650E+00105E+001.020E+00 一1.958E+00一2 693E+OO ―3 20lE+00 ~l 423E+00 ―6 302E+00 6 924E一0l3.933E―036 816E一0l l 457E一0L 3 709E一02 7 933E一0l8.259E一0l7.887E一0l 7 914E一011.280E+00―4.103E一0l ―13.982E一01―9 878E―021455E100―2 085E+00 2 l 62IE一0l 089E*002.196E一01 7 883E+008 380E一017.237E+00 1.925E+00862E+00207E+0122 760E一0l 2 035E―02rain2z4.4658+008.237E+002 320E+00 广义线性模型方法在森林火灾问题中的应用3.905E+00 rain4z windlz wind2zl 7369E+0078iE 0lL223E+006588E+-002 853E+00 4 416E+00 ―2 633E}

我要回帖

更多关于 spss广义线性模型实例 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信