原标题:正态分布到底是怎么来嘚?| 协和八
回复 「统计学」可查看 「说人话的统计学」系列合辑
在上一集《算术平均数:简单背后有乾坤》(如果你错过了这一集或者已經忘记了我们讲了啥,强烈建议你戳这里稍作回顾)中我们问了这么一个问题:
多少年来人们最熟悉、最常用、最符合直觉的算术平均數,它到底好在哪里
为了回答这个问题,我们引入了随机误差的概念并且介绍了频率主义统计学中一种重要的方法——极大似然估计。
那么算术平均数是不是对真值的极大似然估计呢?
要证明这一点我们需要了解随机误差在概率上的分布是怎样的(也就是说,它的概率密度函数是什么)——这恰恰是两三百年前引无数英雄竞折腰的问题而高斯在这里头做了一件事,他证明了如下结论:
如果算术平均数是对真值的极大似然估计 那么随机误差的分布就只可能是我们现在熟知的 正态分布(也称高斯分布):
正如我们在上一集的末尾指絀的那样,高斯的这个证明有点儿蛋生鸡鸡生蛋的意思到底有没有意义,取决于“ 算术平均数是对真值的最大似然估计”这个假设到底對不对高斯本人当时并不知道,我们说过他是靠猜的。
而接下来的剧情估计你也想得到
今天我们就来捋一捋正态分布究竟是怎么来嘚。
让我们回到1809年
这一年,高斯发表了我们上面提到的这个证明不久以后,同时代的法国大数学家拉普拉斯读到了高斯的论文他当時也掺和到了寻找随机误差的分布性质的热潮之中,可是一直以来都没有得到像样的进展此时,他惊讶地发现高斯推出的概率密度函數
这个概率密度函数在拉普拉斯自己的研究中曾经出现过,然而奇怪的是拉普拉斯是在一个听起来似乎与随机误差风马牛不相及的问题Φ搞出这个概率密度函数的。
拉普拉斯之前是在研究什么问题呢
我们来设想以下情形:如果有一枚钢镚儿,它抛出正面的概率是 p(p可以昰0到1之间的任何数)如果我们把这枚钢镚儿连续抛n次,那么我们得到0, 1, 2, …, n个正面的概率分别是多少
这个问题本质上是个 二项分布 高斯分咘(binomial distribution)的问题,大家也许还记得在高中那会儿学习排列组合的时候就遇到过,有现成的公式可以算抛出m个正面的概率:
这个公式不难理解其中
是n选m的组合数,也就是抛n次钢镚儿中具体哪m次出现了正面(剩下的n-m次自然就是反面)有多少种不同的可能而
到了这里,两三百年来數学家们不断探寻的随机误差的分布终于可以尘埃落定了由于中心极限定理,自然界中说不清、道不明、看不见、摸不着的种种芜杂都會最终统一到正态分布之中因而,随机误差服从正态分布也就有了必然性
如果这么说还有些抽象的话,我们不妨最后来看一个例子
仳如,从人类学的角度出发我们对人类身高的共同特性感兴趣。由于我们的研究对象是全人类这就包括了目前存在、以前曾经存在以忣将来可能存在的所有人类的集合,这在统计学中称为“ 总体”在频率主义统计学的思想中,对于人类这么一个抽象性的概念其身高會有一个真值,它代表了人类这个物种身高的总体趋势当然了,我们除了知道这个身高比蚂蚁大、比长颈鹿小以外并不知道它到底是哆少。
而我们遇到的每一个人(包括我们自己)都是人类这个总体吐出的一个“ 样本”。自然每个人的身高都是千差万别的,每一个樣本与那个未知真值的差便是这个样本的随机误差。
为什么会有误差呢我们可以想象千百种缘由:性别、种族、生活在哪个国家、城市还是农村、家庭收入、某些基因的基因型、饮食习惯、体育锻炼的情况……显然,最终的误差是由所有这些不同来源的微小误差叠加起來的而这些微小误差的分布有些是离散的(比如性别、种族),有些是连续的(比如家庭收入)而且还可能是互相联系的(比如所在國家和饮食习惯)。我们上面提到的 中心极限定理3.x版告诉我们在这样的条件下,最后总的随机误差应该服从正态分布因此,如果我们隨机选取足够多的人测量其身高频率直方图就会呈现正态分布的钟形曲线。而根据这样的数据怎样能作出对真值的最好(极大似然的意义下)估计呢?自然是取样本的算术平均数了
自从「说人话的统计学」系列开播以来,这一集和上一集也许是最抽象、最有不像人话危险的两集了我也许应该交代一下,为什么花了这么多笔墨来说正态分布呢
首先,中心极限定理是概率论和统计学最重要的定理(没囿之一)而且在许多科学家心目中与牛顿定律、相对论等同样重要、揭示宇宙最基本规律的少数定理之一(希望你读到这里会同意这个說法)。但由于它涉及到一些相对艰深的理论即便许多概率论或统计学课程都有所提及,但可能还是让人得其形而不解其意我希望这兩集文章能给大家一点更感性的认识,进而更了解为什么正态分布那奇妙的钟形曲线如此无处不在某种意义上说,也是对这个世界一点點更深的领悟不是吗
其次,我们接下来要讲到的 许多统计学方法——如t检验、方差分析、多元线性回归等——都会对数据的正态性有要求这也是许多人在使用这些统计学方法时很容易忽略的方面。之所以有这样的要求其原因归根结底也是我们这一集所讲的内容,清楚叻正态分布的来龙去脉对于这些方法的正态性假设也就很容易理解了。与此同时我们也会更容易明白,在怎样的情况下数据会违背正態性以及在正态性假设不能满足时应该怎样处理。
要是这两集没完全看懂怎么办
没有关系,不妨在未来读到我们后续的文章时再不時回来重温一下,相信你一定会得到新的领悟发现新的精彩。
1. 陈希孺. (2002). 数理统计学简史. 湖南教育出版社.