当n很大时,二项分布 高斯分布可以用高斯分布逼近吗

原标题:正态分布到底是怎么来嘚?| 协和八

回复 「统计学」可查看 「说人话的统计学」系列合辑

在上一集《算术平均数:简单背后有乾坤》(如果你错过了这一集或者已經忘记了我们讲了啥,强烈建议你戳这里稍作回顾)中我们问了这么一个问题:

多少年来人们最熟悉、最常用、最符合直觉的算术平均數,它到底好在哪里

为了回答这个问题,我们引入了随机误差的概念并且介绍了频率主义统计学中一种重要的方法——极大似然估计。

那么算术平均数是不是对真值的极大似然估计呢?

要证明这一点我们需要了解随机误差在概率上的分布是怎样的(也就是说,它的概率密度函数是什么)——这恰恰是两三百年前引无数英雄竞折腰的问题而高斯在这里头做了一件事,他证明了如下结论:

如果算术平均数是对真值的极大似然估计 那么随机误差的分布就只可能是我们现在熟知的 正态分布(也称高斯分布)

正如我们在上一集的末尾指絀的那样,高斯的这个证明有点儿蛋生鸡鸡生蛋的意思到底有没有意义,取决于“ 算术平均数是对真值的最大似然估计”这个假设到底對不对高斯本人当时并不知道,我们说过他是靠猜的。

而接下来的剧情估计你也想得到

今天我们就来捋一捋正态分布究竟是怎么来嘚。

让我们回到1809年

这一年,高斯发表了我们上面提到的这个证明不久以后,同时代的法国大数学家拉普拉斯读到了高斯的论文他当時也掺和到了寻找随机误差的分布性质的热潮之中,可是一直以来都没有得到像样的进展此时,他惊讶地发现高斯推出的概率密度函數

这个概率密度函数在拉普拉斯自己的研究中曾经出现过,然而奇怪的是拉普拉斯是在一个听起来似乎与随机误差风马牛不相及的问题Φ搞出这个概率密度函数的。

拉普拉斯之前是在研究什么问题呢

我们来设想以下情形:如果有一枚钢镚儿,它抛出正面的概率是 p(p可以昰0到1之间的任何数)如果我们把这枚钢镚儿连续抛n次,那么我们得到0, 1, 2, …, n个正面的概率分别是多少

这个问题本质上是个 二项分布 高斯分咘(binomial distribution)的问题,大家也许还记得在高中那会儿学习排列组合的时候就遇到过,有现成的公式可以算抛出m个正面的概率:

这个公式不难理解其中

是n选m的组合数,也就是抛n次钢镚儿中具体哪m次出现了正面(剩下的n-m次自然就是反面)有多少种不同的可能而

到了这里,两三百年来數学家们不断探寻的随机误差的分布终于可以尘埃落定了由于中心极限定理,自然界中说不清、道不明、看不见、摸不着的种种芜杂都會最终统一到正态分布之中因而,随机误差服从正态分布也就有了必然性

如果这么说还有些抽象的话,我们不妨最后来看一个例子

仳如,从人类学的角度出发我们对人类身高的共同特性感兴趣。由于我们的研究对象是全人类这就包括了目前存在、以前曾经存在以忣将来可能存在的所有人类的集合,这在统计学中称为“ 总体”在频率主义统计学的思想中,对于人类这么一个抽象性的概念其身高會有一个真值,它代表了人类这个物种身高的总体趋势当然了,我们除了知道这个身高比蚂蚁大、比长颈鹿小以外并不知道它到底是哆少。

而我们遇到的每一个人(包括我们自己)都是人类这个总体吐出的一个“ 样本”。自然每个人的身高都是千差万别的,每一个樣本与那个未知真值的差便是这个样本的随机误差。

为什么会有误差呢我们可以想象千百种缘由:性别、种族、生活在哪个国家、城市还是农村、家庭收入、某些基因的基因型、饮食习惯、体育锻炼的情况……显然,最终的误差是由所有这些不同来源的微小误差叠加起來的而这些微小误差的分布有些是离散的(比如性别、种族),有些是连续的(比如家庭收入)而且还可能是互相联系的(比如所在國家和饮食习惯)。我们上面提到的 中心极限定理3.x版告诉我们在这样的条件下,最后总的随机误差应该服从正态分布因此,如果我们隨机选取足够多的人测量其身高频率直方图就会呈现正态分布的钟形曲线。而根据这样的数据怎样能作出对真值的最好(极大似然的意义下)估计呢?自然是取样本的算术平均数了

自从「说人话的统计学」系列开播以来,这一集和上一集也许是最抽象、最有不像人话危险的两集了我也许应该交代一下,为什么花了这么多笔墨来说正态分布呢

首先,中心极限定理是概率论和统计学最重要的定理(没囿之一)而且在许多科学家心目中与牛顿定律、相对论等同样重要、揭示宇宙最基本规律的少数定理之一(希望你读到这里会同意这个說法)。但由于它涉及到一些相对艰深的理论即便许多概率论或统计学课程都有所提及,但可能还是让人得其形而不解其意我希望这兩集文章能给大家一点更感性的认识,进而更了解为什么正态分布那奇妙的钟形曲线如此无处不在某种意义上说,也是对这个世界一点點更深的领悟不是吗

其次,我们接下来要讲到的 许多统计学方法——如t检验、方差分析、多元线性回归等——都会对数据的正态性有要求这也是许多人在使用这些统计学方法时很容易忽略的方面。之所以有这样的要求其原因归根结底也是我们这一集所讲的内容,清楚叻正态分布的来龙去脉对于这些方法的正态性假设也就很容易理解了。与此同时我们也会更容易明白,在怎样的情况下数据会违背正態性以及在正态性假设不能满足时应该怎样处理。

要是这两集没完全看懂怎么办

没有关系,不妨在未来读到我们后续的文章时再不時回来重温一下,相信你一定会得到新的领悟发现新的精彩。

1. 陈希孺. (2002). 数理统计学简史. 湖南教育出版社.

}

  二项分布 高斯分布有两个参数┅个 n 表示试验次数,一个 p 表示一次试验成功概率现在考虑一列二项分布 高斯分布,其中试验次数 n 无限增加而 p 是 n 的函数。

  1.如果 np 存在有限極限 λ,则这列二项分布 高斯分布就趋于参数为 λ 的 泊松分布反之,如果 np 趋于无限大(如 p 是一个定值)则根据德莫佛-拉普拉斯(De'Moivre-Laplace)中心极限定理,这列二项分布 高斯分布将趋近于正态分布

  2.实际运用中当 n 很大时一般都用正态分布来近似计算二项分布 高斯分布,但是如果同时 np 叒比较小(比起 n来说很小)那么用泊松分布近似计算更简单些,毕竟泊松分布跟二项分布 高斯分布一样都是离散型分布

日常生活中,夶量事件是有固定频率的

  • 某医院平均每小时出生3个婴儿

  • 某公司平均每10分钟接到1个电话

  • 某超市平均每天销售4包xx牌奶粉

  • 某网站平均每分钟有2佽访问

它们的特点就是,我们可以预估这些事件的总数但是没法知道具体的发生时间。已知平均每小时出生3个婴儿请问下一个小时,會出生几个

有可能一下子出生6个,也有可能一个都不出生这是我们没法知道的。

泊松分布就是描述某段时间内事件具体的发生概率。

       上面就是泊松分布的公式等号的左边,P 表示概率N表示某种函数关系,t 表示时间n 表示数量,1小时内出生3个婴儿的概率就表示为 P(N(1) = 3) 。等号的右边λ 表示事件的频率。接下来两个小时一个婴儿都不出生的概率是0.25%,基本不可能发生

接下来一个小时,至少出生两个婴儿嘚概率是80%


       可以看到,在频率附近事件的发生概率最高,然后向两边对称下降即变得越大和越小都不太可能。每小时出生3个婴儿这昰最可能的结果,出生得越多或越少就越不可能。

      二项分布 高斯分布即重复n次的伯努利试验在每次试验中只有两种可能的结果,而且昰互相对立的是独立的,与其它各次试验结果无关结果事件发生的概率在整个系列试验中保持不变,则这一系列试验称为伯努利实验

distribution),最早由A.棣莫弗在求二项分布 高斯分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布在统计学的许多方面有着重大的影响力。
       正态曲线呈钟型两头低,中間高左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线

假设随机变量服从一个位置参数为的正态分布,则可以记为:



当μ = 0,σ = 1時的正态分布是标准正态分布

在python中画正态分布直方图

通过numpy构造正太分布数据,之后画图可以通过size大小来调节数据的正太分布效果

 

画直方图与概率分布曲线

 
 

}

正态分布(Normal distribution)也称“常态分布”,又名高斯分布(Gaussian distribution)最早由A.棣莫弗在求二项分布 高斯分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它P.S.拉普拉斯和高斯研究了它的性质。[1] 是一个在数学、物理及工程等领域都非常重要的概率分布在统计学的许多方面有着重大的影响力。

正态曲线呈钟型两头低,中间高左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线

若随机变量X服从一个数学期望为μ、方差为σ^2的正態分布,记为N(μ,σ^2)其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正態分布。

}

我要回帖

更多关于 二项分布 高斯分布 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信