为什么说统计学区间估计的原理是什么是统计学最重要的内容

  • 答:1. A take 拿走bring ,带来 今天你可以把它拿走,但明天你必须把它带过来. 2. B What time is it ?几点了6:30了

}

今天我想谈谈统计学中的一个基本术语——置信区间,我希望以一种非常友好的方式来进行只讨论一般概念,没有太多花哨的统计术语同时使用 python!

尽管这个术语是非瑺基础的但它有时很难完全理解(就像我之前那样),究竟发生了什么为什么我们需要它,我们应该在什么时候使用它

假设你想知噵美国有多少人热爱足球。为了得到 100% 正确的答案你可以做的唯一一件事是向美国的每一位公民询问他们是否热爱足球。根据维基百科嘚说法美国有超过 3.25 亿的人口。与 3.25 亿人谈话并不现实所以我们必须考虑其他事情,我们必须通过问(更)少的人来得到答案

我们可以通过在美国随机抽取一些人(与更少人交谈)并获得热爱足球的人的百分比来做到这一点,但是我们不能 100% 确信这个数字是正确的或者這个数字离真正的答案有多远,所以我们试图实现的是获得一个区间,例如对这个问题的一个可能的答案是:「我 95% 相信在美国足球愛好者的比例是 58% 至 62%」。这就是置信区间名字的来源我们有一个区间,并且我们对它此一定的信心

边注:非常重要的是我们的样本昰随机的,我们不能只从我们居住的城市中选择 1000 人因为这样就不能很好地代表整个美国。另一个不好的例子是我们不能给这 1000 个随机的囚发 Facebook 消息,因为这样我们就会得到美国 Facebook 用户的代表当然也不是所有的美国公民都使用 Facebook。

因此假设我们随机抽取了 1000 个美国人的样本,我們发现在 1000 人中有 63% 的人喜欢足球,我们能假设(推断)出整个美国人口的情况吗?

为了回答这个问题,我希望我们以一个不同的方式来看待它假设我们知道(理论上)美国人的确切比例,假设它是 65%那么随机挑选 1000 人只有 63% 的人喜欢足球的机会是多少?让我们用 python 来探索这個问题!

在这段代码中我创建了一个拥有 3.25 亿人的 numpy 数组,对于每个人如果他/她喜欢足球,那么我会存储一否则就是零。我们可以通过計算它的平均值来得到数组中的百分比实际上它是 65%。

现在让我们取几个样本,看看我们得到的百分比是多少:

你可以看到对于每个樣本我么获得了不同的值但直觉(和统计理论)表示,大量样本的平均值应该非常接近真实百分比让我们这样做!让我们取很多样本,然后看看会发生什么:

我们创建了 10K 个样本检查了每个样本中热爱足球的人的百分比,然后取平均值我们得到了 64.98%,这非常接近于实際值 65%让我们画出我们得到的所有值:

这里你看到的是我们得到的所有样本值的直方图,这个直方图的一个很好的性质是它和正态分布非常相似正如我所说的,我不想在这里使用太多的统计术语但假设如果我们这样做了很多次(无限次),我们将得到一个非常接近正態分布的直方图我们可以知道该分布的参数。用更简单的话来说我们会知道这个直方图的形状,所以我们可以精确地知道有多少个样夲可以获得任意值范围

下面是一个例子,我们会多次运行这个模拟(试图达到无穷大):

首先我们可以看到直方图的中心(平均值)接近 65%,正如我们所预期的但我们可以通过查看直方图来得到更多信息,例如我们可以说,一半样本都大于 65%或者我们可以说大约 25% 的样品大于 67%,甚至可以说(大致)只有 2.5% 的样本大于 68%

在这一点上,很多人可能会问两个重要的问题:「我怎样才能取得无数的样夲」和「它对我有什么帮助?」

让我们回到我们的例子,我们抽取了 1000 人的样本得到了 63%,我们想知道随机抽样的 1000 人中有 63% 的足球愛好者的概率是多少。使用这个直方图我们可以说有(大概)25%的概率,我们会得到一个小于或等于 63% 的值该理论告诉我们,我们实際上并不需要得到无限的样本如果我们随机选择 1000 人,只有 63% 的人喜欢足球是可能发生的

边注#2:实际上,为了实现这一切(找到值范圍的概率)我们需要知道或至少估计人口的标准偏差。因为我想把事情变得简单一点我现在先不讨论它。

让我们回到现实和真正的问題我不知道美国足球爱好者的实际比例,我只抽取了一个样本得到了 63%,这对我有什么帮助

所以,我们不知道在美国热爱足球的人嘚实际比例我们所知道的是,如果我们取无数个样本它将如下所示:

这里 μ 是人口的平均值(我们例子中足球爱好者的实际百分比),σ 是人口的标准差

如果我们知道这一点(并且我们知道标准差),我们可以说约 64% 的样品会落在红色区域或者 95% 以上的样品会落在圖中的绿色区域之外:

如果我们在假设实际百分比为 65% 之前使用该图,那么 95% 以上的样本将在 62% 和 68% 之间(+ - 3)

当然距离是对称的,所以洳果样本百分比有 95% 落在在实际百分比 -3 和实际百分比 +3 之间那么真实百分比将是样本百分比 -3 和样本百分比 +3 之间的 95%。

如果我们抽取一个样本得到了 63%,那么我们可以说我们 95% 确信实际比例在 60%(63-3)和 66%(63 + 3)之间

这就是置信区间,区间为 63 + -3置信度为 95%。

我希望现在置信区间哽有意义正如我之前所说,这个介绍忽略了一些重要的技术性的部分有很多文章包含了这些部分,我希望现在能够更容易地跟上它们

}

因为教书所以,在讲解相关的概念和技术的时候总是习惯首先从大处着眼,然后在小处入手所谓从大处着眼,就是梳理下概念和技术的源流和历史;在小处入手就昰总是使用具体的例子来讲解这样,才能既有对相关专题的宏观把握又能直观地领会背后的数学。

了解统计学思想更为有趣其实也哽为重要

统计学,想来理工科的人都学习过不过,可能也都有头疼的感觉:似乎学习统计学就必须先学习概率论可概率论就向一座山,想要弄懂并不容易(我要承认我是没有深入体会的)。

因为自己学习某一理论总是习惯了解其后的历史所以,也了解到统计学早期的一些有趣的轶事知道,最早使用统计学来认知社会现象的时候并不是学会了概率论才行的。更像是先做了,然后才是夯实理论基础 - 这茬数学发展的过程中是屡见不鲜的

约翰 · 格朗特()。他以 1604 年伦敦教会每周一次发表的 “死亡公报” 为研究资料在 1662 年发表了《关于死亡公报的自然和政治观察》的论著。书中分析了 60 年来伦敦居民死亡的原因及人口变动的关系首次提出通过大量观察,可以发现新生儿性別比例具有稳定性和不同死因的比例等人口规律;并且第一次编制了“生命表”对死亡率与人口寿命作了分析,从而引起了普遍的关注他的研究清楚地表明了统计学作为国家管理工具的重要作用。

1654年,两位法国数学家帕斯卡和费马通过通信讨论解决了由赌徒分配赌金引起嘚"点数问题",才标志着概率论的诞生,因此公认的概率论创始人是帕斯卡与费马

比利时的阿道夫 · 凯特勒()在19 世纪中叶正式把古典概率论引进统计学,使统计学进入一个新的发展阶段其主要著作有:《论人类》、《概率论书简》、《社会制度》和《社会物理学》等。他主張用研究自然科学的方法研究社会现象

所以,了解统计学的思想并不需要严格的概率论的知识。不过现在的书籍大多秉承了倒叙的方式,总是将后来的解释- 也就是理论基础先说一大堆然后才是严谨地鲜活的统计学思想妥善地隐藏在纷繁复杂的各个章节中。很多时候学习统计学的人在概率论就已经死去了

其实,统计学的很新内容是很简洁明了的也就是基于分布的小概率逻辑推断而已。

核心就是基于分布的小概率逻辑推荐

我们都有这样的经历当你习惯了每天某一时刻会发生某件事时(如日出日落),突然有一天此事不再发生你必嘫会觉得很奇怪,会推测是不是因为什么原因导致了此事在今天没有发生

其实,将此种现象在数学(统计学)中提炼出来就是小概率事件(Small Probability Event)為了量化这样的概念,统计学中做了严谨的理论构建也就是概率论等的价值所在。

为此统计学理论的基本任务就是:

    • 所谓的分布,简單地讲就是事件发生的频率如果事件有多种取值,每一值也就有对应的频率这也是早期概率的定义。常见的有四种分布 - 也就是后面
    • 这裏有个问题那就是如何获得分布。除了一些理论可以推定的很多现实中的问题都是通过样本来推定总体的分布的。那么这种推定是否正确?这就是学者要证明的 - 很多时候就需要数学家了概率论便是这类学者要用到的工具。
  • 基于小概率事件(SPE)进行推断
    • 有了前面的分布茬指定事件取值的主要区间(按照设定的规则,可以建立取值区间与可能程度 - 也就是概率 - 的对应关系即给定98%的可能程度,就有对应的取值范畴)那么,剩下的取值范畴就是所谓的小概率事件的范畴每一个被小概率事件的范畴覆盖的取值就是小概率事件了。
    • 所谓小概率事件嘚意义就在于按照事件取值的可能程度,小概率事件发生的可能性是很低的如果有一次抽查就遇到了小概率事件,也就是"不应该发生嘚发生了"这就意味着有两种推断:
    • 此次事件是有特殊的原因导致的

常见统计学书籍的章节虽然很多,其实都是可以从上面衍生出来的

基本的四个分布 - 正态,学生卡方和费舍尔

下图即为标准正态分布(Standard Normal Distribution)的示意。横坐标上就是随机变量(与事件是绑定的)的取值;那个钟型曲线覆盖下的面积就是对应于相应取值范畴的可能程度(概率)例如,变量取值在[0, /subject/2201479/
出版社: 中国科学技术大学出版社
出版社: 北京大学出版社

涉及经濟民生的那些指数

还有股票市场的那些指数

BBC拍了几部有关数据分析的视频值得看看

  • 作为一个设计师出身的产品狗,十分愧对所有教过我嘚数学老师们因为基本上上课时间都用来画漫画或者睡觉了,所以数理化加...

  • 《R语言与统计分析》的读书笔记 本书的重点内容及感悟: 第三嶂 概率与分布 1、随机抽样 通过sample()来实...

  • 《深入浅出统计学》 大纲 1.统计学的作用2.集中趋势的量度3.分散性与变异性的量度4.概率计算5.离散概率分布的...

  • Chapter 5 Estimation 夲篇是第五章内容是参数估计。 1.参数估计的一般问题 正如前面介绍的...

}

我要回帖

更多关于 统计学区间估计的原理是什么 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信