第五章 比率变量举例估计与回归估计 本章要点 本章讨论了简单随机抽样和分层随机抽样下比率变量举例估计量和回归估计量的构造及性质要求: ①掌握总体比率变量举唎、比率变量举例估计量及回归估计量的概念。 ②了解比率变量举例估计量、回归估计量的偏倚、方差及方差的估计量 ③掌握应用比率變量举例估计量及回归估计量的条件。 第一节 问题的提出 在许多实际问题中常常涉及两个调查变量(指标)Y 和X 对于包含个抽样单元的总體除了对总体信息进行估计外,常常要估计总体比率变量举例R总体比率变量举例在形式上总是表现为两个变量总值或均值之比。 在涉及兩个变量的抽样调查中有两种情况需要应用比率变量举例估计量。一种情况是利用双变量样本对总体比率变量举例进行估计需应用比率變量举例估计量此时两个变量均为调查变量。另一种情况是一个变量为调查变量另一个变量表现为与调查变量有密切关系的辅助变量,在对调查变量总体总值、总体均值等目标量进行估计时利用已知的辅助变量信息构造比率变量举例估计量可以改进估计的精度。 基于這种考虑利用已知的辅助变量信息构造比率变量举例估计量就可使估计精度加以改进 第二节 比率变量举例估计 一、比率变量举例估计量 設对有两个调查变量Y 和X 的总体进行简单随机抽样 ,分别以yx表示样本总值 ,以 表示样本均值以 为样本比率变量举例 ,用 作为总体比率变量举例R的估计称为的比率变量举例估计 比率变量举例估计量除了使用调查变量样本信息外,还要使用辅助变量总体信息与样本信息而苴是非线性估计量。这类估计量称为复杂估计量由于比率变量举例估计量使用的信息比简单估计量多,因而有可能比简单估计量有更高嘚精度同时由于比率变量举例估计量是非线性估计量,因而对其性质的研究比对简单估计量要复杂得多 二、比率变量举例估计量的偏倚与均方误差 比率变量举例估计量是有偏估计量,但当样本量增大时其偏倚将趋于零 理论上可以证明, 分别为 的近似无偏估计量,而且对於比率变量举例估计量其方差主要取决于 与 之间的差异,当 时估计量方差将很小。换言之比率变量举例估计量将有很高的精度。这告诉我们只有当两个变量大致成正比例关系时,应用比率变量举例 估计量才能使估计精度有较大改进 三、 比率变量举例估计量方差的估计与置信区间 对于一般的n,比率变量举例估计量呈右偏分布只有当n>30, <0.1, <0.1这些条件同时满足时才能直接用正态分布构造置信区间。R的置信区间为 [ ] 其中 是标准正态分布的上α/2分位点0<α<1。类似可得 、Y的置信区间 案例一 解 答过程 案例二 解答过程 四、 比率变量举例估计量优于简单估计量的条件 定量分析计算表明,并非任何情况下比率变量举例估计量都优于简单估计量只有当调查变量与辅助变量有较高嘚正相关性时比率变量举例估计量才能使估计精度有较大提高。若 ≈ 则只需当ρ> 0.5 时比率变量举例估计量就比简单估计量精度高。 五、哆元比率变量举例估计 对于调查变量Y 若有p个具有正相关性的辅助变量 则可构造多元比率变量举例估计。 设 是 的基于第k个辅助变量的比率變量举例估计则 的多元比率变量举例估计量为: 其中 是相应变量的样本总值, 是辅助变量总体均值 是适当选取的权,满足 利用拉格朗日乘数法可计算得 此时最小方差为 案例三 解答过程 六、乘积估计 当辅助变量X 与调查变量Y 呈负相关关系时,不能应用比率变量举例估计而應改用乘积估计 乘积估计优于简单估计的条件是 < 此时
第五章 比率变量举例估计与回归估计教学目的与要求 掌握总体比率变量举例、比率变量举例估计量及回归估计量的概念 了解比率变量举例估计量、回归估计量的偏差、方差及方差的估计量 掌握应用比率变量举例估计量及回归估计量的条件 第一节 问题提出 有时涉及两个调查变量Y和X,除了估计两个变量的总徝和均值还常常要估计两个变量的总体均值或总体总值之比,称为总体比率变量举例R 总体比率变量举例的内涵可以有不同,有时是总體均值有时是总体比例,有时是一般的相对数但在形式上总是表现为两个变量总值或均值之比。 总体比率变量举例的含义 例如Y,X分别表礻调查单位产量和播种面积则R为平均亩产,即总体均值例如Y,X分别表示调查单位60岁以上老年人数和家庭人口数,则R表示全地区60岁以上老姩人比例即总体比例。若Y,X分别表示家庭男女人口数则R表示全地区性别比。 总体比率变量举例和总体比例区别:P是总体调查单位数N已知只涉及一个调查变量,而R涉及两个调查变量均需调查。 第二节 比率变量举例估计 二、比率变量举例估计量的偏差与均方误差 比率变量举例估计量是有偏的但当样本量增大时其偏差将趋近于零。 下表是容量为5的总体列出了两个变量的值,计算全部可能的n=3的简单随机樣本指标 三、比率变量举例估计量方差的样本估计与比率变量举例估计量的置信区间 例2 在某地区抽取由33个住户组成的简单随机样本,对烸户调查两个指标:人口数xi和每天用于食品支出的费用yi,经计算得 试估计该地区平均每人每天用于食品的支出并求其置信水平95%的置信区间。 例3 某系统有56个企业去年全系统总产值86436万元,为估计今年总产值年底在所辖全部企业中随机抽取12个企业进行调查得以下资料,其中xi和yi汾别为去年和今年产值试估计今年总产值,并给出抽样标准误的估计 12个企业两年产值(万元) 四、比率变量举例估计量优于简单估计量的条件 五、多元比率变量举例估计 例4 为精确地估计某地区皮棉总产量,在该地区301个村庄中简单随机抽取18个村庄在调查皮棉产量yi的同时記录了皮棉种植面积x1i良种比例x2i,该地区皮棉种植总面积为X1=7450平方公里采用良种的平均比例为 六、乘积估计 第三节 回归估计 一、定义 二、回歸系数为常数的情形 在为相同目的进行的大量反复调查中,若多次使用回归估计量且回归系数的值比较稳定则有理由取此稳定值作为回歸系数设定值。 三、回归系数取样本回归系数的情形 四、回归估计与比率变量举例估计及简单估计的大样本比较 例5 某地区有规模以下工业企业127个共有固定资产价值6794.5万元,从中随机抽取20个企业调查工业产值及固定资产价值试估计该地区规模以下工业总产值及其抽样标准误。 企业固定资产总值与工业产值(万元) 第四节 分层比率变量举例估计与分层回归估计 一、分别比率变量举例估计与联合比率变量举例估計 构造分层比率变量举例估计时两种做法:一种是对每层样本构造比率变量举例估计然后通过加权或求和给出总体均值或总值的估计量,称为分别比率变量举例估计量另一种是对两个指标的总体均值分别求出分层估计,然后用它们构造比率变量举例估计称为联合比率變量举例估计量。 (一)分别比率变量举例估计 (二)联合比率变量举例估计 二、分别回归估计和联合回归估计 (一)分别回归估计 在分層随机抽样中总体均值和总值的分别线性回归估计量为 (二)联合回归估计 三、各种估计量的比较 当各层样本量较小时,分别比率变量舉例估计、分别回归估计将有较大偏差从而均方误差比较大,此时如果总样本量比较大则采用联合比率变量举例估计、联合回归估计哽好一些。 例6 某县有300个村小麦播种面积为23434亩,全部村子按地势分为平原、丘陵和山区三种类型各按10%的抽样比抽样,调查亩产量如表其中 思考与练习 1某县有200个村,共播种小麦77000亩采用抽样调查估计全县小麦总产量,随机抽取10个村对其小麦产量及播种面积进行调查 试以播种面积为辅助变量用比率变量举例估计量估计全县小麦总产量,并与简单估计量就效果进行比较 2某镇在2000户家庭中随机抽取36户调查生活費用,以y表示样本的食品支出费用x表示总支出费用,得恩格尔系数 3从总体中抽取一简单随机样本对每个调查单位都测量了调查变量y和輔助变量x的值,如果辅助变量的总体均值已知那么对总体比率变量举例进行估计时有下述两种做法: 4将麦田分割成小块,以此作为调查單位调查目的是估计小麦总产量,采用简单随机抽样得到一样本称量了各单元麦粒净重yi及麦粒麦秆毛重xi,经过计算得到 若以麦粒麦秆毛重为辅助变量构造比率变量举例估计量而不是采用简单估计量估计总产量,试求在精度上的得益 5 6某地调查农作物总产量,该地有大尛不等的土地140块总面积460亩,采用简单随机抽样调查10块土地数据如下表所示。试分别用简单估计量比率变量举例估计量,回归估计量估计总产量估计各估计量的标准差,并对上述结果进行比较分析 8某县调查某种农作物总产量,由于平