若要估计优质品咖啡牛奶比例所占比例,在95%的置信区间下,抽样极限误差是多少

第5章 抽样与抽样估计 三亿文库
第5章 抽样与抽样估计
一个置信区间与一个置信度相联系。置信度(1-α)告诉我们,有百分之多少(α)的时间,置信区间真的包含了总体参数。当置信度为0.95时,α=0.05。置信度最普遍的选择有90%,95%和99%。 这里有一个基于上表给出的106个体温样本值的置信区间的例子:总体均值μ的0.95置信度下的置信区间为98.08H<μ<98.32H。 如何解释? 正确解释:我们有95%的把握相信从98.08H到98.32H这个区间实际包含了μ的真实值。这意味着如果我们要选择很多不同的容量为106的样本构建置信区间,则其中95%的区间将会实际包含总体均值μ的值。用来估计μ的过程!P96。 错误解释:μ的真实值有95%的可能性将位于98.08H到98.32H间。人体平均体温是一个固定的常数值,不是一个随机变量,μ要么落在这个范围内,要么不落在这个范围内,不涉及概率问题! 95%的置信水平告诉我们,最终我们正在使用的过程所产生的置信区间范围将有95%的时间包含μ。 临界值。构建一个置信区间的必要条件是,我们找到了一个能够用来区分可能发生的样本统计量和不太可能发生的样本统计量的标准z值。 ? 由中心极限定理我们知道,样本均值趋于正态分布。 ? 样本均值落在图中两端区域之一的可能性相当小(用α表示这个概率)。 ? 将每个区域面积用α/2表示,我们看出,样本均值将落在这两 6 个尾部区域中任何一个区域的概率是α。 ? 根据互补法则,样本均值落在中间区域中的概率是1-α。 ? 将右尾的区域分割出来的z值一般用zα/2表示,它指的就是一个临界值,因为它位于把可能发生的样本均值和不太可能发生的样本均值分开的边界线上。 课堂练习一:分别计算对应于90%、95%和99%置信度的临界值zα/2。 误差限。当用一个简单随机样本的数据估计一个总体均值时μ,误差限(就是抽样极限误差)是指观测的样本均值xˉ与总体均值μ的真实值的最大可能(概率是1-α)差异,用E表示,也是估计值的最大误差。 E2= (zα/2σ)2/n 也就是说,样本均值的误差(和总体均值μ的差异)将不超过E的概率是1-α,样本均值的误差超过E的概率是α。 实际计算中我们并不知道总体。如果n>30,我们可用样本标准差s来替代;n≤30,则总体必须服从正态分布,且我们必须知道σ的值。 总体均值μ的置信区间(基于大样本:n>30):xˉ-E<μ<xˉ+E 课堂练习二:对于人体体温,请使用95%的置信度计算下面两个问题:误差限和μ的置信区间。 由一个置信区间计算点估计值和E。已知一个置信区间,要以计算μ的点估计值和E: xˉ=[(置信区间的上界)+(置信区间的下界)] / 2 E = [(置信区间的上界)(置信区间的下界)] / 2 我们要注意的是计算置信区间的基础是中心极限定理。
7 实例一:书例5-4;例5-5。 实例二:柯达AA电池的寿命(单位:分钟)的95%置信区间是430<μ<470。假设这个结果是根据一个容量为100的样本得出的。①样本均值的值是多少?②样本标准差是多少?③构建99%的置信区间;④如果置信区间432<μ<468是从相同的样本数据得出的,置信度是多少? 5.3 估计总体均值:小样本 实际生活中经常要求我们处理一个小样本。本节的假设是样本是一个容量不大于30的简单随机样本,且其总体服从于一个正态分布。 样本均值xˉ是总体均值μ的最好的点估计值。 本节我信讨论置信区间估计时要考虑两种情况: ? 情形一:σ是已知的。在很大程度上讲不太现实。因为我们是不知道总体均值而要估计这个值,我们也不知道总体标准差σ。若我们知道σ,则我们可像第二讲一样加以计算置信区间。 ? 情形二:σ是未知的。这种情况下,我们不用正态分布,而用W.戈塞特(1876 -- 1937)提出的学生t分布。 学生t分布:如果总体的分布基本上是正态的(大致钟形),则对于所有的容量为n的样本,分布t=(xˉ-μ)/(s/n?)基本上就是一个t分布。就是t分布,可用来计算以tα/2表示的临界值。 学生t分布有以下重要性质: ? 不同样本容量的t分布也有不同。看图5-2。 ? t分布和标准正态分布有相同的大致钟形形状,但对于小样本, 8 它显示出更大的方差(分布更宽)。 ? t分布的均值为t=0。 ? t分布的标准差随着样本容量的变化而变化,但它是大于1 的。 ? 随着样本容量n的增大,t分布趋近于标准正态分布。n>30后两者之间的差异很小了。 总结一下,使用t分布的条件是:样本是小样本(n≤30);σ是未知的;样本所来自的总体基本上是正态的。 一个数据集的自由度是指在一定的条件限制到所有的数据值以后,样本数值能够发生变化的数量。一般地让自由度=n-1。 课堂练习三:一个容量为n=15的样本是一个正态分布的总体中选出的简单随机样本。计算对应于95%置信度的临界值tα/2。 基于未知的σ和来自正态分布总体的小简单随机样本(n≤30),E= tα/2(s/n?),xˉ-E<μ<xˉ+E。 课堂练习四:因为在大雪过后,心脏病死亡人数呈上升趋势,因此一项研究就被设计用来比较铲雪的心脏需求和使用电动扫雪机的心脏需求。10名测试对象使用两种方法来清扫积雪的路面,在使用这两种方法扫雪时,他们的最大心率被记录下来。下面的结果是在实验中铲雪部分的心率结果,基本上满足钟形分布。在人工铲雪时的最大心率:n=10,xˉ=175,s=15。对于那些铲雪的人,计算其总体均值的95%的置信区间估计。 总结一下:如何选择恰当的分布。
9 5.4 估计总体均值μ所需的样本容量 当我们打算收集一个简单随机数据样本以用于估计一个总体均值μ时,必须要收集多少个样本数据?也就是样本容量是多少?确定一个简单随机样本的容量是一个非常重要的问题,因为没有必要的扩大样本会浪费时间和资金,而样本太小又可能导致没有价值的结果。在很多情况下我们可以计算估计某个参数,如总体均值所需要的最小样本容量。 估计总体均值μ所需要的样本容量:n=[ zα/2σ/E]2 可见,样本容量不依赖于总体容量N;样本容量依赖于想要达到的置信度、误差项和标准差的取值。样本容量必须是整数,要足够大。 实例三:假设我们想要估计大学本科生的身高。如果我们想要有95%的把握相信样本均值位于总体均值附近2 个身高单位范围内。必须要随机选择多少名学生进行身高测试。设σ=15。 如果σ未知怎么办?我们可使用范围经验法则来估计标准差或一些以前所做过的其他研究。 课堂练习五:你计划要估计一个大学的教科书的平均销售价格。如果你想要有99%的把握相信,样本均值落在真实的总体均值附近3元的范围内,你必须抽取多少本教科书? 5.5 估计总体比例 估计比例。这里有三个重要假设:样本是一个简单随机样本;二项分布的条件成立;np≥5和nq≥5成立,所以正态分布可以用来估算样本比例的分布。 样本比例是总体比例p的最好的点估计值。
联系客服:cand57</【图文】第5章抽样估计_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
第5章抽样估计
大小:289.50KB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢【图文】第6章 参数估计 2009_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
第6章 参数估计 2009
大小:623.00KB
登录百度文库,专享文档复制特权,财富值每天免费拿!
你可能喜欢您已经超出预览范围,如果喜欢就购买吧!
阅读全文,需支付豆元:2.0
阅读全文+下载文档,需支付豆元:5.88
扫扫二维码,随身浏览文档
手机或平板扫扫即可继续访问
2014年抽样推断考试试题及答案解析
举报该文档为侵权文档。
举报该文档含有违规或不良信息。
反馈该文档无法正常浏览。
举报该文档为重复文档。
推荐理由:
将文档分享至:
分享完整地址
文档地址:
粘贴到BBS或博客
flash地址:
支持嵌入FLASH地址的网站使用
html代码:
&embed src='/DocinViewer-4.swf' width='100%' height='600' type=application/x-shockwave-flash ALLOWFULLSCREEN='true' ALLOWSCRIPTACCESS='always'&&/embed&
450px*300px480px*400px650px*490px
支持嵌入HTML代码的网站使用
您的内容已经提交成功
您所提交的内容需要审核后才能发布,请您等待!
3秒自动关闭窗口抽样调查-博泰典藏网
典藏文档 篇篇精品
导读:月薪不足1000元的职员所占比重的抽样误差不超过8.68%,1500??抽样平均误差:?x?n???1??=n?N?全部职员的平均月薪的估计,p?1?p??n??1??nN??成数抽样平均误差:?p?0.3?0.7?100,本例是事先给定抽样极限误差进行区间估计,在抽样推断中,及抽样平均误差、抽样极限误差及概率度等问题,会增加调查的工作量,一方面可以在既定的调查费用下,使抽样误差尽可能小,使调元,月薪不足1000元的职员所占比重的抽样误差不超过8.68%,试对全部职员的平均月薪以及月薪不足1000元的职员所占比重进行区间估计。 表3―8―2
100名职员月薪标准差计算表 (人)f 按月薪分组(元) 组中值x 频数800以下 800-00 00以上 合
计 700 900 00 ― 10 20 25 30 15 100 xf x-x ?x?x ?2?x?x?2f
-440 -240 -40 160 360 ― 00
(1)全部职员平均月薪的估计 样本平均数:x=?xff?==1140(元) 样本方差:SX?2??x?x??f?2Xf==58400 ????1??≈23.35(元) 1500??抽样平均误差:?x?n???1??=n?N?全部职员的平均月薪的估计区间为: ≤X≤ 即:1094.3元≤X≤1185.7元 概率度t=?x?x=45.723.35=1.96 ∴ F(t)=95% 即全部职员的平均月薪在1094.3元至1185.7元之间的概率保证程度为95%。 (2)月薪不足1000元的职员所占比重的估计 样本成数:p=10?20100=30% p?1?p??n??1??nN??成数抽样平均误差:?p?0.3?0.7?100?1???≈4.43% =1001500??全部职员中月薪不足1000元的职员所占比重的区间估计为: 30%-8.68%≤P ≤30%+8.68%
19 即:21.32%≤P ≤38.68% 概率度t=?p?p?8.68%4.43%=1.96 ∴ F(t)=95% 即在95%的概率保证下,全部职员中月薪不足1000元的职员所占比重在21.32%至38.68%之间。 本例是事先给定抽样极限误差进行区间估计,实际应用中有时是事先给定概率保证程度进行区间估计。现仍以表3―8―2所示的资料为例,说明这种区间估计的方法。 前已算出:x=1140元,p=30%,
?x=23.35%, ?p?4.43% 现要求在68.27%的概率保证下,对全部职员的平均月薪以及月薪不足1000元的职员所占比重进行区间估计。 ∵F(t)=68.27%
∴t=1 ∴?x?t??x=1×23.35=23.35(元) ?p?t??p=1×4.43%=4.43% 根据x?t?x≤X≤x?t?x ∴≤X≤ 即1116.65元≤X≤1163.35元 根据p?t?p≤P≤p?t?p ∴30%-4.43%≤P≤30%+4.43% 即25.57%≤P≤34.43% 所以,在68.27%的概率保证下,全部职员平均月薪的置信区间为(1116.65元,1163.35元),月薪不足1000元的职员所占比重的置信区间为(25.57%,34.43%)。
样本容量的确定
在抽样推断中,确定样本容量本应是一个需要先行解决的问题,但是由于其计算方法涉 20 及抽样平均误差、抽样极限误差及概率度等问题,故只能放在本章最后进行介绍。 合理确定样本容量具有重要的意义。样本容量过大,会增加调查的工作量,造成人、财、物力和时间的浪费;样本容量过小,则样本对总体缺乏足够的代表性,从而难以保证推算结果的精确度和可靠性。所以,样本容量确定得科学合理,一方面可以在既定的调查费用下,使抽样误差尽可能小,以保证推算的精确度和可靠性;另一方面,可以在既定的精确度和可靠性下,使调查费用尽可能少。以保证抽样调查的最大效果。 一、样本容量的影响因素 样本容量的影响因素主要有以下几个方面: 1.总体标志变动度。在其他条件不变的前提下,总体标志变动度越大,则抽样误差就越大,因此,样本容量应大些;反之,总体标志变动度越小,抽样误差就越小,则样本容量就可小些。二者呈正方向变化。 2.抽样极限误差。若其他条件不变,抽样极限误差越小,即抽样估计的精确度要求越高,样本容量应越大;抽样极限误差越大,即精确度要求越低,样本容量应越小。二者呈反方向变化。 3.概率保证程度。在其他条件不变的前提下,抽样估计所要求的概率保证程度越高,样本容量应越大;概率保证程度越低,样本容量应越小。二者呈正方向变化。 4.抽样方式和方法。不同的抽样组织形式会有不同的抽样误差,因此,样本容量也应有所不同。至于抽样方法,由于不重复抽样的误差小于重复抽样的误差,因此,不重复抽样的样本容量可比重复抽样小些。 二、样本容量确定的基本公式 (一)平均数推算的样本容量 1.重复抽样:n?t??x22x2 ?2x推导过程:∵ ?x?t??x?t?∴ ?x?t2?∴ n=t??x22x2n 2?2xn
21 2. 不重复抽样:n? Nt?222x22xN?x?t? 推导过程:??x?t?x?t?
∴?x2?t2t?n22x?n???1?? n?N?x2?t?xn?t?x?x ??1???n?N?nN222222??x?t?N22x?N?x?t?N222x ∴n?Nt?222x22xN?x?t? (二)成数推算的样本容量 1.重复抽样:n?t??p22p2?tP?1?P?2?22p22p NtP?1?P?22.不重复抽样:n?Nt?N?2p?t?2p?N?2p?tP?1?P?2 三、确定样本容量应注意的问题 1.上述计算公式中的总体方差资料可以用历史资料或者实验性调查所得方差资料代替。 2.同一次调查中,进行成数推算与进行平均数推算的样本容量一般不相等。为满足两种推算的共同需要,应选择其中数值较大者。 3.实际确定的样本容量应略多于计算结果,以保证推断的精确度和可靠性。 例1,在某市2000年高中一年级3490名学生的数学统考中,数学成绩标准差为12.48分,及格率为86%。现对这批学生升入二年级后的统考成绩进行抽样估计,要求平均成绩的允许误差最大为2分,及格率的极限误差为5%,概率保证程度为95%。用不重复抽样方法需要抽查多少学生? 由于?x=12.48(分) t=1.96
N =3490(人) ∴平均成绩推算的样本容量为: n?Nt?222x22N?x?t?x=?12.?2?1.96?12.48≈144(人)
22 由于p=86%
N =3490(人) ∴及格率推算的样本容量为: n?Ntp?1?p?2N?2p?tp?1?p?2=?0.86??1?0.86??1.96?0.86??1?0.86?2≈176(人) 即为满足平均成绩和及格率两种推算的共同需要,至少应抽查176名学生。 例2,在过去三次调查中,某种商品的合格率分别为95%、97%、98%。现要求允许误差最大为2%,概率保证程度为95.45%,则至少应抽查多少件商品? 由于成数越接近50%,成数方差P(1-P)越大,所以,我们应从三个合格率资料中选用P=95%。 另知?p=2%,t=2 ∴ n?tp?1?p?2?2p=2?0.95??1?0.95?20.022=475(件) 即至少应抽取475件商品。
附录:Excel在抽样推断中的应用 一、用统计函数计算样本和总体的标准差及方差 如果只计算样本和总体的标准差,在Excel中有两个求标准差的函数:一个是求样本标准差的函数STDEV;另一个是求总体标准差的函数STDEVP。STDEV和STDEVP不同的是:其根号下分式的母项不是用N而是用n-1计算的(这是为了用样本指标推断总体指标时可以得到无偏估计。当利用已知的平均数计算其他数值时,能自由变动的变量只有n-1个,必有1个因受平均数和其他变量的制约不能变动,故称n-1为自由度)。此外,还有两个对包含逻辑值和字符串的数列计算样本标准差和总体标准差的函数STDEVA和STDEVPA。用STDEV和STDEVP函数计算标准差的方法可参阅第二篇第六章的附录。 同样,在Excel中求方差也有两个函数:一个是求样本方差的函数VAR;一个是求总体方差的函数VARP。前者是按自由度n-1计算的,后者是按变量值个数N计算的。另外也有两个对包含逻辑值和字符串的数列计算样本方差和总体方差的函数VARA和VARPA。用VAR和VARP函数计算方差的方法可参阅第二篇第六章的附录。 得出样本或总体的标准差或方差后,用输入公式的方法在Excel中计算出抽样平均误差。 二、使用描述统计工具对样本数据进行描述
23 包含总结汇报、计划方案、自然科学、高中教育、出国留学、农林牧渔、医药卫生、高等教育、外语学习、党团工作、经管营销以及第三篇
抽样调查等内容。本文共6页
相关内容搜索}

我要回帖

更多关于 冷库各类产品所占比例 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信