统计学中回归方程问题,关于用EXCEL表格写出经验回归方程判定系数等的解答题

您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
统计学习题参考答案解析.doc 59页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
你可能关注的文档:
··········
··········
(1)数值型变量。
(2)分类变量。
(3)离散型变量。
(4)顺序变量。
(5)分类变量。
(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。
(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。
(1)总体是所有IT从业者的集合。
(2)数值型变量。
(3)分类变量。
(4)截面数据。
(1)总体是所有在网上购物的消费者的集合。
(2)分类变量。
(3)参数是所有在网上购物者的月平均花费。
(5)推断统计方法。
第二章数据的搜集
1.什么是二手资料?使用二手资料需要注意些什么?
与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。 使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手资料时,要注明数据来源。
2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。
非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。
3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?
实验式、观察式等。
4. 自填式、面方式、电话式调查个有什么利弊?
自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感问题的压力。缺点:返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。
面谈式优点:回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。缺点:成本比较高,对调查过程的质量控制有一定难度。对于敏感问题,被访者会有压力。
电话式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服。
5.请举出(或设计)几个实验数据的例子。
不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。
6.你认为应当如何控制调查中的回答误差?
对于理解误差,要注意表述中的措辞,学习一定的心里学知识。对于记忆误差,尽量缩短所涉及问题的时间范围。对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。
7.怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。
对于随机误差,可以通过增加样本容量来控制。对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回答率降到最低程度。无回答出现后,分析武回答产生的原因,采取补救措施。比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。
数据的图表搜集
一、思考题
3.1数据的预处理包括哪些内容?
答:审核、筛选、排序等。
3.2分类数据和顺序数据的整理和显示方法各有哪些?
答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,如果是两个或两个以上变量可以制作交叉表。对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。根据不同的资料或者目的选择不同的图。
对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。可根据需要绘制条形图、饼图、环形图等。
3.3数值型数据的分组方法有哪些?简述组距分组的步骤。
答:单变量值分组和组距分组。其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般5~15组;第二步,确定各组组距,宜取5或10的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。
3.4直方图和条形图有何区别?
答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各
正在加载中,请稍后...您还可以使用以下方式登录
当前位置:&>&&>& > 统计学第六版贾俊平 答案
统计学第六版贾俊平 答案
第一章1.1.1(1)数值型变量。(2)分类变量。(3)离散型变量。(4)顺序变量。(5)分类变量。1.2导论(1)总体是该市所有职工家庭的集合;样本是抽中的2000个职工家庭的集合。(2)参数是该市所有职工家庭的年人均收入;统计量是抽中的2000个职工家庭的年人均收入。1.3(1)总体是所有IT从业者的集合。(2)数值型变量。(3)分类变量。(4)截面数据。1.4(1)总体是所有在网上购物的消费者的集合。(2)分类变量。(3)参数是所有在网上购物者的月平均花费。(4)参数(5)推断统计方法。第二章数据的搜集1.什么是二手资料?使用二手资料需要注意些什么?与研究内容有关的原始信息已经存在,是由别人调查和实验得来的,并会被我们利用的资料称为“二手资料”。使用二手资料时需要注意:资料的原始搜集人、搜集资料的目的、搜集资料的途径、搜集资料的时间,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手资料时,要注明数据来源。2.比较概率抽样和非概率抽样的特点,举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。概率抽样是指抽样时按一定概率以随机原则抽取样本。每个单位被抽中的概率已知或可以计算,当用样本对总体目标量进行估计时,要考虑到每个单位样本被抽中的概率,概率抽样的技术含量和成本都比较高。如果调查的目的在于掌握和研究总体的数量特征,得到总体参数的置信区间,就使用概率抽样。非概率抽样是指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。非概率抽样操作简单、实效快、成本低,而且对于抽样中的专业技术要求不是很高。它适合探索性的研究,调查结果用于发现问题,为更深入的数量分析提供准备。非概率抽样也适合市场调查中的概念测试。3.调查中搜集数据的方法主要有自填式、面方式、电话式,除此之外,还有那些搜集数据的方法?实验式、观察式等。4.自填式、面方式、电话式调查个有什么利弊?自填式优点:调查组织者管理容易,成本低,可以进行较大规模调查,对被调查者可以刻选择方便时间答卷,减少回答敏感问题的压力。缺点:返回率低,调查时间长,在数据搜集过程中遇到问题不能及时调整。面谈式优点:回答率高,数据质量高,在数据搜集过程中遇到问题可以及时调整可以充分发挥调查员的作用。缺点:成本比较高,对调查过程的质量控制有一定难度。对于敏感问题,被访者会有压力。电话式优点:速度快,对调查员比较安全,对访问过程的控制比较容易,缺点:实施地区有限,调查时间不宜过长,问卷要简单,被访者不愿回答时,不宜劝服。5.请举出(或设计)几个实验数据的例子。不同饲料对牲畜增重有无影响,新旧技术的机器对组装同一产品所需时间的影响。6.你认为应当如何控制调查中的回答误差?对于理解误差,要注意表述中的措辞,学习一定的心里学知识。对于记忆误差,尽量缩短所涉及问题的时间范围。对于有意识误差,调查人员要想法打消被调查者得思想顾虑,调查人员要遵守职业道德,为被调查者保密,尽量避免敏感问题。7.怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。对于随机误差,可以通过增加样本容量来控制。对于系统误差,做好预防,在调查前做好各方面的准备工作,尽量把无回答率降到最低程度。无回答出现后,分析武回答产生的原因,采取补救措施。比如要收回一百份,就要做好一百二十份或一百三十份问卷的准备,当被调查者不愿意回答时,可以通过一定的方法劝服被访者,还可以通过馈赠小礼品等的方式提高回收率。第三章一、思考题3.1数据的预处理包括哪些内容?答:审核、筛选、排序等。数据的图表搜集3.2分类数据和顺序数据的整理和显示方法各有哪些?答:分类数据在整理时候先列出所分的类别,计算各组的频数、频率,得到频数分布表,如果是两个或两个以上变量可以制作交叉表。对于分类数据可以绘制条形图、帕累托图、饼图、环形图等。根据不同的资料或者目的选择不同的图。对于顺序数据,可以计算各种的频数、频率,以及累计频数、累计频率。可根据需要绘制条形图、饼图、环形图等。3.3数值型数据的分组方法有哪些?简述组距分组的步骤。答:单变量值分组和组距分组。其中组距分组:第一步,确定组数,组数多少由数据的多少和特点等决定,一般5~15组;第二步,确定各组组距,宜取5或10的倍数;第三步,根据分组整理出频数分布表,注意遵循“不重不漏”和“上限不在内”的原则。3.4直方图和条形图有何区别?答:1,条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,高度与宽度都有意义;2直方图各矩形连续排列,条形图分开排列;3条形图主要展示分类数据,直方图主要展示数值型数据。3.5绘制线图应注意问题?答:时间在横轴,观测值绘在纵轴。一般是长宽比例10:7的长方形,纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。3.6饼图和环形图的不同?答:饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系类为一个环。3.7茎叶图比直方图的优势,他们各自的应用场合?答:茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。3.8鉴别图标优劣的准则?答:P65明确有答案,我就不写了。3.9制作统计表应注意的问题?答:1,合理安排统计表结构;2表头一般包括表号,总标题和表中数据的单位等内容;3表中的上下两条横线一般用粗线,中间的其他用细线,两端开口,数字右对齐,不要有空白格;4在使用统计表时,必要时可在下方加注释,注明数据来源。二、练习题3.1答:(1)表中数据属于顺序数据。(2)用Excel制作一张频数分布表。服务等级好较好家庭数目(个)1421一般较差差321815(3)绘制一张条形图,反映评价等级的分布。(4)绘制评价等级的帕累托图。3.2某行业管理局所属40个企业2002年的产品销售收入数据如下:要求:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。1、确定组数:2、确定组距:组距=(最大值-最小值)÷组数=(152-87)÷6=10.83,取10,取k=63、分组频数表销售收入80–-–0150以上合计频数频率%57.522..02.5100.0向上累计频数40—向上累计频率%512..597.5100—(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。频数先进企业良好企业一般企业落后企业合计频率%253022.522.5100向上累计频数—向上累计频率%0—单位:万元3.3某百货公司连续40天的商品销售额如下:要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。答:1、确定组数:,取k=62、确定组距:组距=(最大值-最小值)÷组数=(49-25)÷6=4,取53、分组频数表(根据实际资料,调整成分5个组)销售收入(万元)30以下30-45以上合计4、直方图频数频率%.向上累计频数—向上累计频率%100—3.4利用下面的数据构建茎叶图和箱线图。答:茎叶图Frequency3.005.007.002.003.003.003.003.001.00箱线图Stem&1.2.2.3.3.4.4.5.5.Leaf6701273.5答:频数分布表灯泡寿命660以下660-680-700-720-740以上合计直方图频率033100向上累积频率(%)2%7%13%27%53%71%84%94%97%100%—从直方图看,数据的分布呈左偏分布。3.6答:频数分布表,取k=72、确定组距:组距=(最大值-最小值)÷组数=(61-40)÷7=3,取33、分组频数表(根据实际资料,调整成分5个组)食品重量(g)43以下43-52-以上合计频数00频率%00.0向上累计频数00—向上累计频率%00—从直方图看,数据的分布呈双峰分布。3.7频数分布表重量误差(g)19-49-79-89合计频数频率%4100向上累计频数0—向上累计频率%100—从直方图看,数据的分布呈左偏分布3.8(1)数值型数据(2)频数分布表,取k=72、确定组距:组距=(最大值-最小值)÷组数=(9+25)÷7=4.86,取5气温(℃)(-25,-20)(-20,-15)(-15,-10)(-10.-5)(-5.0)(0,5)(5,10)合计频数频率%10.21.1.67100向上累计频数0—向上累计频率%10.61.100.00—从直方图看,数据的分布呈左偏分布。3.9自学考试人员年龄分布集中在20-24之间,分布图呈右偏。3.103.113.12(1)复式条形图(2)甲班成绩分布图近似正态分布,分布较均衡;乙班成绩分布图右偏。(3)根据雷达图,两班成绩分布不相似。3.133.14第四章习题答案4.1数据排列:2,4,7,10,10,10,12,12,14,15(1)众数:10;中位数:10平均数:9.6(2)四分位数:QQ位置=位置==2.5.所以Q==13=5.5=7.5,所以Q=(3)标准差:4.17(4)峰度—0.25,偏度—0.694.2(1)众数:19;23中位数:23平均数:24(2)四分位数:QQ位置=位置==6.25.所以Q=19+0.25^0=19=18.75,所以Q=25+2^0.75=26.5(3)标准差:6.65(4)峰度0.77,偏度1.084.3(1)茎叶图略(2)平均数:7,标准差0.71(3)第一种方式的离散系数第二种方式的离散系数===0.10=0.28所以,第二种排队方式等待时间更集中。(4)选择第二种,因为平均等待的时间短,而且等待时间的集中程度高4.4(1)平均数:274.1,中位数:272.5(2)QQ位置=位置==7.5.所以Q=258+0.25^3=258.75=22.5,所以Q=284+7^0.75=289.25(3)日销售额的标准差:21.17甲企业总平均成本==19.41(元)乙企业总平均成本=所以甲企业的总平均成本比乙企业的高,原因是甲企业高成本的产品B生产的产量比乙企业多,所以把总平均成本提高了。利润总额的平均数=利润总额标准差=峰态系数偏态系数=4.7(1)不同。1000名的平均身高较高;(2)不同。100名的样本容量的标准差更大;(3)不同,调查1000名的样本容量得到最高和最低者的机会较大。4.8对于不同的总体的差异程度的比较采用标准差系数,计算如下:;(1)女生的体重差异大,因为离散系数大;(2)以磅为单位,男生的平均体重为132.6磅,标准差为11.05磅;女生的平均体重为110.5磅,标准差为11.05磅(3),所以大约有68%的人体重在55kg~65kg之间;(4),所以大约有95%的女生体重在40kg~60kg之间。4.9;;由此可以判断第二项测试更理想。4.11(1)采用离散系数,因为如果比较身高差异,儿童和成年人属于不同的总体;(2)所以,儿童的身高差异更大。4.12(1)对集中程度和离散程度分别评价,选择集中趋势数值大的,而且离散程度数值小的方式(2)选择方法A,因为A方法下,工人的平均组装数量为165.6,而且该方法下,工人组装数量的离散系数只有0.012,所以选择A方法。4.13(1)用离散系数(2)商业类(3)高科技,第六章统计量与抽样分布由样本构建具体的统计量,实际上是对样本所含的总体信息按某种要求进行加工处理,把分散在样本中的信息集中到统计量的取值上,不同的统计推断问题要求构造不同的统计量。构造统计量的主要目的就是对总体的未知参数进行推断,如果统计量中含有总体的未知参数就没办法再对参数进行统计推断。2、是统计量,在不是统计量。4、假若一个统计量能把含在样本中有关总体的信息一点都不损失地提取出来,这样的统计量称充分统计量。5、统计学上的自由度指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的资料的个数。6、7、在重复选取容量为n的样本时,由样本统计量的所有取值形成的相对频数分布为统计量的抽样分布。二、练习1、易知由这台机器灌装的9个瓶子形成的样本,其平均灌装量服从正态分布,均值为标准差为,故2、若,则,即,又知,故。3、易知服从自由度为6的卡方分布,得(左侧分位数)4、因为布,服从分布,我们已知,,则可以得到,故我服从们若9)分取,,故。(题中均为左侧分位数)第七章7.1(1)(2)由于1-α=95%α=5%参数估计所以估计误差7.2(1)(2)因为所以(3)u的置信区间为7.3由于所以u的95%置信区间为n=1007.4(1)u的90%置信区间为(2)u的95%置信区间为(3)u的99%置信区间为7.5(1)(2)(3)7.6(1)(2)(3)(4)7.790%置信区间为95%置信区间为99%置信区间为7.8所以95%置信区间为7.9由于所以95%置信区间为7.10(1)(2)中心极限定理7.11(1)(2)由于所以合格率的95%置信区间为7.12由于所以99%置信区间为7.13所以90%置信区间为7.14(1)(2)(3)7.15(1)90%置信区间为(2)95%置信区间为7.16所以n为1667.17(1)所以n为254(2)所以n为151(3)7.18(1)所以n为268(2)7.19(1)所以n为62所以(2)(3)7.20(1)(2)7.21(1)=的90%置信区间为:==(2)的95%置信区间为:==(3)的99%置信区间为:=7.22(1)==(2)==18==(3)=17.78=(4)==18.714==(5)=20.05==7.23(1)==(2)=7.24,的置信区间为:==7.25(1)==(2)==7.26==2.464=0.所以n=487.28所以n=139===47.06=138.30第8章假设检验二、练习题(说明:为了便于查找书后正态分布表,本答案中,正态分布的分位点均采用了下侧分位点。其他分位点也可。为了便于查找书后t分布表方便,本答案中,正态分布的分位点均采用了上侧分位点。)8.1解:根据题意,这是双侧检验问题。已知:总体方差当拒绝域W={因为(注:,查表得}。,所以不能拒绝H0,认为现在生产的铁水平均含碳量为4.55。为正态分布的1-α/2下侧分位点)8.2解:根据题意,这是左单侧检验问题。已知:总体方差当拒绝域W={因为(注:,查表得}。,所以拒绝H0,认为该元件的使用寿命低于700小时。为正态分布的1-α下侧分位点)8.3解:根据题意,这是右单侧检验问题。已知:总体方差当拒绝域W={因为(注:,查表得}。,所以拒绝H0,认为这种化肥能使小麦明显增产。为正态分布的1-α下侧分位点)8.4解:根据题意,这是双侧检验问题。方差未知。已知:总体根据样本计算得:当拒绝域W={因为(注:,查表得}。,所以不能拒绝H0,认为该日打包机工作正常。为t分布的α/2上侧分位点)8.5解:根据题意,这是右单侧检验问题。已知:当拒绝域W={因为能出厂。(注:,查表得}。,所以拒绝H0,认为不符合标准的比例超过5%,该批食品不为正态分布的1-α下侧分位点)8.6解:根据题意,这是右单侧检验问题。已知:当拒绝域W={因为(注:,查表得}。,所以不能拒绝H0,认为该厂家的广告不真实。为t分布的α上侧分位点)8.7解:根据题意,这是右单侧检验问题。已知:当拒绝域W={因为(注:,查表得}。,所以不能拒绝H0,认为元件的平均寿命不大于225小时。为t分布的α上侧分位点)8.8解:根据题意,这是右侧检验问题。已知:当拒绝域W={因为,查表得}。,所以拒绝H0,认为成立。(注:为-分布的α上侧分位点)8.9解:根据题意,这是双侧检验问题。已知:总体方差当拒绝域W={因为强度不相同。(注:,查表得}。,所以拒绝H0,可以认为A,B两厂生产的材料平均抗压为正态分布的1-α/2下侧分位点)8.10解:根据题意,这是双侧检验问题。已知:总体方差,但未知2.3579当拒绝域W={因为,查表得}。,所以拒绝H0,认为两种方法的装配时间有显著差异。(注:为t分布的α上侧分位点)8.11解:根据题意,这是双侧检验问题。已知:在大样本条件下当拒绝域W={因为管炎”这种观点。(注:,查表得}。,所以拒绝H0,认为调查数据支持“吸烟者容易患慢性气为正态分布的1-α/2下侧分位点)8.12解:根据题意,这是右单侧检验问题。(1)等同于(2)已知:在n=144情况下,(2)中的H0成立时,t近似服从标准正态分布。因此P=P(t&2.16)=1-0.4。所以在α=0.01的显著水平,不能拒绝H0,认为贷款的平均规模没有明显超过60万元。8.13解:根据题意,这是左单侧检验问题。已知:在大样本条件下当拒绝域W={因为(注:,查表得}。,所以拒绝H0,认为阿司匹林可以降低心脏病发生率。为正态分布的1-α下侧分位点)(1)根据题意,这是双侧检验问题。8.14解:已知:当,利用EXCEL提供的统计函数“CHIINV”,得。拒绝域W={因为成立。(注:为-分布的α上侧分位点)},所以不能拒绝H0,认为(2)根据题意,这是双侧检验问题。已知:总体方差当,查表得。拒绝域W={}因为,所以不能拒绝H0,认为螺栓口径为7.0cm。(注:为正态分布的1-α/2下侧分位点)因此,由(1)和(2)可得:这批螺栓达到了规定的要求。8.15(1)根据题意,这是双侧检验问题。已知:当,利用EXCEL提供的统计函数“FINV”,得。拒绝域W={}因为,所以不能拒绝H0,成立。(注:为F-分布的α/2上侧分位点)(2)根据题意,这是右单侧检验问题。认为由(1)的分析可知:总体方差,但未知当拒绝域W={因为(注:,查表得}。,所以拒绝H0,认为有显著大学中男生学习成绩比女生好。为t分布的α上侧分位点)第十章一、思考题10.1什么是方差分析?它研究的是什么?方差分析答:方差分析就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它所研究的是分类型自变量对数值型因变量的影响。10.2要检验多个总体均值是否相等时,为什么不作两两比较,而用方差分析方法?答:做两两比较十分繁琐,进行检验的次数较多,会使得犯第I类错误的概率相应增加,而且随着增加个体显著性检验的次数,偶然因素导致差别的可能性也会增加。而方差分析方法是同时考虑所有的样本,因此排除了错误累积的概率,从而避免一个真实的原假设。10.3方差分析包括哪些类型?它们有何区别?答:方差分析可分为单因素方差分析和双因素方差分析。区别:单因素方差分析研究的是一个分类自变量对一个数值型因变量的影响,而双因素涉及两个分类型自变量。10.4方差分析中有哪些基本假定?答:(1)每个总体都应服从正态分布(2)各个总体的方差(3)观测值是独立的10.5简述方差分析的基本思想答:它是通过对数据误差来源的分析来判断不同总体的均值是否相等,进而分析自变量对因变量是否有显著影响。10.6解释因子和处理的含义答:在方差分析中,所要检验的对象称为因素或因子,因素的不同表现称为水平或处理。10.7解释组内误差和组间误差的含义答:组内平均值误差的误差(SSE)是指每个水平或组的各个样本数据与其组平均值误差平方和,反映了每个样本个观测值的离散状况;组间误差(SSA)是指各组平均值与总平均值的误差平方和,反映了各样本均值之间的差异程度。10.8解释组内方差和组间方差的含义答:组内方差指因素的同一个水平下样本数据的方差;组间方差指因素的不同水平下各个样本之间的方差。10.9简述方差分析的基本步骤答:(1)提出假设(2)构造检验统计量(3)统计决策10.10方差分析中多重比较的作用是什么?答:通过对总体均值之间的配对比较来进一步检验哪些均值之间存在差异。必须相同二、练习题10.1解:方差分析差异源组间组内总计相同10.2解:方差分析差异源组内总计不相同SS26.8df481FP-valueSS618..917dfF4.6574P-value0.10.3解:ANOVA每桶容量(L)平方和组间组内总数10.4解:方差分析组间组内总计有显著性差异。10.5解:方差分析差异源组内总计有显著差异。LSD检验:计算得,,,有因为,则SS216.4832df1214MS18.03333FP-value29.4848.52151714.36511.755730.0008490.1df31518均方0.F8.721显著性0.001决策:(1)业生产的电池平均寿命有显著差异;(2),所以A生产企业生产的电池与B生产企,所以不能认为A生产企业生产的电池与C生产企业生产的电池平均寿命有显著差异;(3),所以B生产企业生产的电池与C生产企业生产的电池平均寿命有显著差异。10.6解:方差分析差异源组内总计有显著性差异SS7.46df2325MS0.323231FP-value10.7(1)方差分析表差异源组间SS4204256Df227MS10219P-value0.245946Fcrit3.354131P=0.025>a=0.05,没有显著差异。10.8解:方差分析差异源列误差总计(1)程度有显著性差异;(2)的轮胎的磨损程度有显著性差异。10.9解:方差分析差异源列误差总计SS18..1495df31219MS6.F9.204658P-value0.001949Fcrit3.490295或p=2.39E-06&,所以不同供应商生产SS3..176df2814MS1.F97.68224P-value2.39E-06Fcrit8.649111或p=0.000236&,所以不同车速对磨损结果表明施肥方法和品种都对收获量有显著影响。10.10解:方差分析差异源列误差总计(1)对食品的销售量无显著性差异;(2)销售量无显著性差异。10.11解:方差分析或p=0.152&,所以不同包装对食品的SS955.df248MS477.8F3.127273P-value0.152155Fcrit6.944272或p=0.931056&,所以不同销售地区样本列交互内部总计(1)(2)(3)10.12方差分析差异源样本列交互内部总计(1)(2)(3).66672241826671848.672.5370375.49E-081.4E-050.0759026.竞争者的数量对销售额有显著影响超市位置对销售额有显著影响无交互作用解:SSdf212611MSF10.7531.75P-value0.Fcrit5.广告方案对销售量有显著影响广告媒体形式对销售量无显著影响无交互作用第11章一、思考题一元线性回归11.1.变量之间存在的互相依存的不确定的数量关系,称为相关关系。相关关系的特点:⑴变量之间确实存在着数量上的依存关系;⑵变量之间数量上的关系是不确定、不严格的依存关系。11.2.相关分析通过对两个变量之间的线性关系的描述与度量,主要解决的问题包括:⑴变量之间是否存在关系?⑵如果存在关系,它们之间是什么样的关系?⑶变量之间的关系强度如何?⑷样本所反映的变量之间的关系能否代表总体变量之间的关系?11.3.在进行相关分析时,对总体主要有以下两个假定:⑴两个变量之间是线性关系;⑵两个变量都是随机变量。11.4.相关系数的性质:⑴r的取值范围是[-1,1],r为正表示正相关,r为负表示负相关,r绝对值的大小表示相关程度的高低;⑵对称性:X与Y的相关系数的相关系数和Y与X之间相等;⑶相关系数与原点和尺度无关;⑷相关系数是线性关联或线性相依的一个度量,它不能用于描述非线性关系;⑸相关系数只是两个变量之间线性关联的一个度量,却不一定意味两个变量之间有因果关系;⑹若X与Y统计上独立,则它们之间的相关系数为零;但r=0不等于说两个变量是独立的。即零相关并不一定意味着独立性。11.5.在实际的客观现象分析研究中,相关系数一般都是利用样本数据计算的,因而带有一定的随机性。样本容量越小,其可信程度就越差,抽取的样本不同,r的取值也会不同,因此r是一个随机变量。能否用样本相关系数来反映总体的相关程度,需要考察样本相关系数的可靠性,因此要进行显著性检验。11.6.相关系数显著性检验的步骤:⑴提出假设;⑵计算检验统计量t值;⑶在给定的显著性水平和自由度,查t分布表中相应的临界值,作出决策。11.7.回归模型是对统计关系进行定量描述的一种数学模型,例如:对于具有线性关系的两个变量,可以有一元线性方程来描述它们之间的关系,描述因变量y如何依赖自变量x和误差项的方程称为回归模型。回归方程是对变量之间统计关系进行定量描述的一种数学表达式。指具有相关的随机变量和固定变量之间关系的方程。当总体回归系数未知时,必须用样本数据去估计,用样本统计量代替回归方程中的未知参数,就得到了估计的回归方程。11.8.一元线性回归模型通常有以下几条基本的假定:⑴变量之间存在线性关系;⑵在重复抽样中,自变量x的取值是固定的;⑶误差项ε是一个期望为零的随机变量;⑷)对于所有的x值,误差项的方差互独立。即。都相同;⑸误差项是一个服从正态分布的随机变量,且相11.9.参数最小二乘法的基本原理是:因变量的观测值与估计值之间的离差平方和最小。11.10.总平方和指n次观测值的的离差平方和,衡量的是被解释变量y波动的程度或不确定性的程度。回归平方和反映y的总变差中由于x与y之间的线性关系引起的y的变化部分,这是可以由回归直线来解释的部分,衡量的是被解释变量y不确定性程度中能被解释变量x解释的部分。残差平方和是除了x对y的线性影响之外的其他因素引起的y的变化部分,是不能由回归直线来解释的部分。它们之间的关系是:总平方和=回归平方和+残差平方和。11.11.回归平方和占总平方和的比例称为判定系数。判定系数测量了回归直线对观测数据的拟合程度。11.12.在回归分析中,F检验是为检验自变量和因变量之间的线性关系是否显著,通过均方回归与均方残差之比,构造F检验统计量,提出假设,根据显著性水平,作出判断。t检验是回归系数的显著性检验,要检验自变量对因变量的影响是否显著,通过构造t检验统计量,提出假设,根据显著性水平,作出判断。11.13.线性关系检验的步骤:⑴提出假设;;⑵构造F检验统计量;;⑶根据显著性水平,作出判断。回归系数检验的步骤:⑴提出假设;;⑶根据显著性水平,作出判断。11.14.回归分析结果的评价可以从以下几个方面:⑴回归系数的符号是否与理论或事先预期相一致;⑵自变量与因变量之间的线性关系,在统计上是否显著;⑶根据判定系数的大小,判断回归模型解释因变量取值差异的程度;⑷误差项的正态假定是否成立。11.15.置信区间估计是对x的一个给定值估计是对x的一个给定值,求出y的平均值的区间估计。预测区间;⑵构造t检验统计量;,求出y的一个个别值的区间估计。二者的区别是:置信区间估计的区间长度通常较短,而预测区间估计的区间长度要长,也就是说,估计y的平均值比预测y的一个特定值或个别值更精确。11.16.残差分析在回归分析中的作用:回归分析是确定两种或两种以上变量间的定量关系的一种统计分析方法.判断回归模型的拟合效果是回归分析的重要内容,在回归分析中,通常用残差分析来判断回归模型的拟合效果,并判定关于误差项的正态假设是否成立。二、练习题11.1.(1)散点图如下:从散点图可以看出,产量与生产费用之间为正的线性相关关系。(2)利用Excel的“CORREL”函数计算的相关系数为(3)首先提出如下假设:计算检验的统计量,。。当时,。由于检验统计量,拒绝原假设。表明产量与生产费用之间的线性关系显著。11.2(1)散点图如下:从散点图可以看出,复习时间与考试分数之间为正的线性相关关系。(2)利用Excel的“CORREL”函数计算的相关系数为表明复习时间与考试分数之间有较强的正线性相关关系。11.3.(1)表示当时的期望值为10。(2)时,表示每增加一个单。。相关系数,位,平均下降0.5个单位。(3)1.4.(1)表示,在因变量释。(2)表示,当用来预测11.5.(1)散点图如下:取值的变差中,有90%可以由与之间的线性关系来解时,平均的预测误差为0.5。从散点图可以看出,运送距离与运送时间之间为正的线性相关关系。(2)利用Excel的“CORREL”函数计算的相关系数为表明运送距离与运送时间之间有较强的正线性相关关系。(3)由Excel输出的回归结果如下表:回归统计MultipleRRSquare0.492。相关系数,AdjustedRSquare标准误差观测值方差0.02310dfSS89Coefficients1.标准误差0.421MS0.230422FSignificanceF残差总计tStat0.575P-value0.E-050.002613InterceptXVariable1得到的回归方程为:回归系数0.585表示运送距离每增加1公里,运送时间平均增加0.003585天。11.6.(1)散点图如下:从散点图可以看出,人均GDP与人均消费水平为正的线性相关关系。(2)利用Excel的“CORREL”函数计算的相关系数为表明人均GDP与人均消费水平之间有非常强的正线性相关关系。(3)Excel输出的回归结果如下表:MultipleRRSquareAdjustedRSquare标准误差观测值方差分析df残差总计CoefficientsIntercept734.692856SS64标准误差139.5403MS61159.01tStat5.265094FSignificanceF0.47.30357。相关系数接近于1,P-value0.003285XVariable1得到的回归方程为:0.3086830.362.91E-07表示人均。回归系数GDP每增加1元,人均消费水平平均增加0.308683元。(4)判定系数GDP决定的。(5)首先提出如下假设:由于SignificanceF&性关系显著。(6)(7)当置信区间为:时,,(元)。。,,拒绝原假设,表明人均GDP与人均消费水平之间的线。表明在人均消费水平的变差中,有99.6259%是由人均即(65.5)。预测区间为:即(75.9)11.7.(1)散点图如下:从散点图可以看出,航班正点率与被投诉次数之间为负的线性相关关系。(2)由Excel输出的回归结果如下表:回归统计MultipleRRSquareAdjustedRSquare标准误差观测值方差分析df回归分析残差总计CoefficientsInterceptXVariable1得到的回归方程为:加1%,顾客投诉次数平均下降4.7次。(3)回归系数检验的P-Value=0.001108&(4)(5)当置信区间为:时,),拒绝原假设,回归系数显著。(次),430.1892-4.70062189SS.标准误差72.894MS.727tStat5..95902F24.59187SignificanceF0.0011080.540.2210P-value0.108表示航班正点率每增。回归系数即(37.7,70.7)预测区间为:即(7.6,100.8)11.8.Excel输出的回归结果如下:MultipleRRSquareAdjustedRSquare标准误差观测值方差分析df回归残差总计CoefficientsInterceptXVariable149.11819SS223.1403129.5标准误差3.tStat12.P-value0.。MS223.F30.9332SignificanceF2.79889E-050..20由上表结果可知,出租率与月租金之间的线性回归方程为:回归系数表示:月租金每增加1元,出租率平均增加0.2492%。,表明在出租率的变差中被出租率与租金之间的线性关系所解释的比例为63.22%,回归方程的拟合程度一般。估计标准误差表示,当用月租金来预测出租率时,平均的预测误差为2.6858%,表明预测误差并不大。由方差分析表可知,SignificanceF=2.79889E-05&回归系数检验的P-value=0.0000&显著性因素。11.9.(1)方差分析表中所缺的数值如下方差分析表如下:残差1040158.07——回归方程的线性关系显著。,表明回归系数显著,即月租金是影响出租率的总计———(2)根据方差分析表计算的判定系数表明汽车销售量的变差中有86.60%是由于广告费用的变动引起的。(3)相关系数可由判定系数的平方根求得:(4)回归方程为:。回归系数表示广告费用每增加一个单位,销售量平均增加1.420211个单位。(5)由于SignificanceF=2.17E-09&显著。11.10.Excel输出的回归结果如下:回归统计MultipleRRSquareAdjustedRSquare标准误差观测值方差分析df残差总计CoefficientsInterceptXVariable113.93234SS43.标准误差4.3994280.343747MS14.51031tStat3.491FSignificanceF0.3480.9164633.8092415,表明广告费用与销售量之间的线性关系P-value0.785由上述结果可知:回归方程为单位平均增加2.3029个单位;判定系数,表明用来预测,回归系数表明,每增加一个,表明回归方程的拟合程度较高;时平均的预测误差为3.8092。估计标准误差11.11.(1)检验统计量:(2)(3)由于,所以拒绝原假设(4)根据相关系数与判定系数之间的关系可知,(5)提出假设:由于11.12.(1)当,,拒绝时,,线性关系显著。。当,。的平均值的95%的置信区间为:即(15.95,18.05)(2)预测区间为:即(14.65,19.35)11.13.Excel输出的回归结果如下:MultipleRRSquareAdjustedRSquare标准误差观测值方差分析df残差总计CoefficientsInterceptXVariable1-46.7767SS5.5标准误差64.101MS11828.2tStat-0.533FSignificanceF0.9476630.8980640.758P-value0.344得到的线性回归方程为:当时,。当,。(2)销售收入95%的置信区间为:即(270.65,685.04)。。11.14.回归1残差图:回归2残差图:结论:回归1的残差基本上位于一条水平带中间,说明变量之间的线性假设以及对误差项正态假设是成立,用一元线性回归方程描述变量间的关系是合适的。回归2的残差表示,变量之间用一元线性回归模型不合理,应考虑曲线回归或多元回归。11.15.(1)估计的回归方程为:(2)由于SignificanceF=0.020&显著。(3)残差图,表明广告费支出与销售额之间的线性关系从图上看,关于误差项的假定不满足。(4)广告费支出x与销售额y关系的散点图:从广告费支出x与销售额y关系的散点图上看,用二次函数或其它曲线模型会更好。第十二章多元线性回归12.1解释多元回归模型、多元回归方程、估计的多元回归方程的含义。,个自变量分别为,,…,,描述因变量如何依赖于自变称为多元回归模答:设因变量为量,,…,,和误差项的方程,…,是模型的参数;为误差项。的期望型。其中,在多元回归模型的基本假定下,因变量该式被称为多元回归方程。回归方程中的参数本统计量,,…,,,…,,是未知的,需要利用样本数据去估计它们。当用样,,…,时,就得到了估去估计回归方程中的未知参数。计的多元回归方程12.2多元线性回归模型中有哪些基本假定?答:(1)误差项是一个期望值为0的随机变量,即(2)对于自变量,,…,的所有值,的方差。都相同。。(3)误差项是一个服从正态分布的随机变量,且相互独立,即12.3解释多重判定系数和调整的多重判定系数的含义和作用。答:多重判定系数是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量的变差中被估计的回归方程所解释的比例。为避免增加自变量而高估计算出调整的多重判定系数,统计学家提出用样本量和自变量的个数去调整,其意义与,类似,表示在用样本量和模型中自变量的个数进行调整后,在因变量的变差中被估计的回归方程所解释的比例。12.4解释多重共线性的含义。答:当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。12.5多重共线性对回归分析有哪些影响?答:首先,变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;其次,多重共线性可能对参数估计值的正负号产生影响,特别是的正负号相反。12.6多重共线性的判别方法主要有哪些?答:(1)模型中各对自变量之间显著相关。(2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数显著。(3)回归系数的正负号与预期的相反。(4)容忍度越小,也即方差扩大因子VIF越大,多重共线性越严重。通常容忍度小于0.1,也即VIF大于10时,存在严重的多重共线性。12.7多重共线性的处理方法有哪些?答:(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。(2)如果要在模型中保留所有的自变量,那就应该:避免根据统计量对单个参数进行检验;对因变量值的推断(估计或预测)限定在自变量样本值的范围内。的检验却不的正负号有可能同预期12.8在多元线性回归中,选择自变量的方法有哪些?答:向前选择、向后剔除、逐步回归、最优子集等。二、练习题12.1表示,在个单位;表示,在个单位。多重判定系数因变量不变的条件下,每增加1个单位,会使平均减少0.049714不变的条件下,每增加1个单位,会使平均增加1.928169和调整的多重判定系数显示:该多元回归方程的拟合效果较差,在的变差中,能被估计的回归方程所解释的比例很少。检验表明,与、、之间的线性关系不显著。对因变量的影响均不显著。检验表明,自变量12.2模型中涉及3个自变量,15个观测值。多重判定系数和调整的多重判定系数显示:该多元回归方程的拟合效果较好,在的变差中,能被估计的回归方程所用样本量和模型中自变量的个数进行调整后,在因变量解释的比例为63.0463%。检验表明,与检验表明,自变量12.3(1)、、、之间的线性关系显著。的影响均显著,但对因变量的影响不显著。对因变量故与、、之间的线性关系显著。(2),故显著。(3)12.4(1),故显著。(2)(3)上述(1)和(2)所建立的估计的回归方程,电视广告费用的系数符号相同但数值大小不同。其中,(1)中加1.603865万元;(2)中加1万元,会使月销售收入表示,在报纸广告费用不变的条件下,电视广告费用每增表示,电视广告费用每增加1万元,会使月销售收入平均增平均增加2.290184万元。(4)根据问题(2)所建立的估计的回归方程,在月销售收入的总变差中,被估计的回归方程所解释的比例是88.6650%。(5)根据问题(2)所建立的估计的回归方程,,故,故12.5(1)显著。显著。(2)22.386461kg/hm2;表示,春季降雨量每增加1mm,会使早稻收获量平均增加
欢迎转载:
相关推荐:}

我要回帖

更多关于 统计学回归方程例题 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信