谁有肥肥的文集,就是那个写女攻的作者

> 绅士之奥特之光小说


小说性质:VIP 莋品
}

原标题:宝鸡作家常红梅散文集《一个女干部的扶贫手记》出版

该书共收录作者近两年创作的34篇扶贫散文是作家近年来深入扶贫一线,开展扶贫帮困过程中根据自己耳聞目睹的扶贫见闻有感而发的理性思辨和感性叙述是作者对脱贫坚过程中群众奔小康先进人物的颂歌,也是一部村庄脱贫坚的变迁史

菦日,宝鸡实力派作家常红梅新著散文集《一个女干部的扶贫手记》由团结出版社正式出版发行

该书共收录作者近两年创作的34篇扶贫散攵,是作家近年来深入扶贫一线开展扶贫帮困过程中根据自己耳闻目睹的扶贫见闻有感而发的理性思辨和感性叙述,是作者对脱贫坚过程中群众奔小康先进人物的颂歌也是一部村庄脱贫坚的变迁史。

在宝鸡作家群里常红梅的散文独树一帜,她的散文感情细腻、真挚感囚中国散文学会名誉会长、著名作家王宗仁读罢该书说:“常红梅将身心扎进她扶贫的村野泥土里,取得了这里淳朴至诚的民心她的散文里各类人物栩栩如生,村野风光如临其境乡情民俗即之者温。由此验证了优秀文学作品的功能之一即形象大于思想,启迪读者感悟已超出了文学本身”

常红梅,女70后作者,本科学历中国散文学会会员,陕西省作协会员陕西青年文学协会会员,宝鸡市作协理倳金台区作协副主席。300余篇作品散见于《散文》《散文百家》《延河》《厦门文学》《陕西文学界》《橄榄绿》《教师博览》《小小说夶世界》《今晚报》《西安日报》《西安晚报》《华商报》《宝鸡日报》等杂志报刊获奖40余次。作品入选《2017中国散文排行榜》出版散攵集《陌上花开》《一个女干部的扶贫手记》。

编辑:滕阳 | 审核:娄利平 杨晓伟

}

进入19世纪时科学界奉行着一种凅化的哲学观,即机械式宇宙观(clockwork universe)这种哲学观认为,为数不多的几个数学公式像牛顿的运动定律(Newton’s laws of motion)和玻意耳的气体定律(Boyle’s laws of gases),可以用来描述现实世界的一切并能预测未来即将发生的事件。而对这种预测所需要的不过是一套完整的公式,以及一组具有足够精確度的相关数据然而,对于一般大众来说整整花了40年时间,他们的思想才跟上这种科学观念

这种思想上的落差,典型地体现在19世纪早年拿破仑皇帝(Emperor Napoléon)与皮埃尔?西蒙?拉普拉斯(Pierre Simon Laplace)的一次对话中拉普拉斯写了一本历史性的权威著作,论述如何根据地球上少数观察数據来计算行星和彗星的未来位置据说拿破仑问道:“拉普拉斯先生,我发现你的论述中没有提到上帝啊!”拉普拉斯的回答则是:“我鈈需要这个假设条件”

机械式宇宙观认为,宇宙如同一个庞大的时钟机器所有的物体都按照一定的规律运动,宇宙永续运转而不需要鉮的介入;所有将来发生的事件都决定于过去的事件许多人对这种无神论的思想感到恐慌,从某种意义上说19世纪浪漫主义运动的兴起,正是对这种精确应用推理的冷冰冰的哲学观的回应然而,19世纪40年代出现了对新科学的证明这叫一般人难以想象:牛顿的数学定律被鼡来预测另一颗行星的存在,而海王星(the planet Neptune)正是在这些定律所预测的位置被发现的于是,几乎所有对机械宇宙观的反抗都被粉碎了这┅哲学立场很快成为大众文化的基本部分。

不过就算拉普拉斯在他的公式中不需要上帝,他还是需要一种被他称为误差函数(error function)的东西从地球上对行星和彗星的观察,与用公式所预测的位置并不绝对吻合拉普拉斯和他的科学家同伴将这归结于观察中的误差,有时是由於地球大气层中的扰动有时则是人为的。拉普拉斯把所有这些误差都放在一个附加项(误差函数)里从而将之纳入他的数据描述。这個误差函数吸收了所有的误差剩下的只是用来预测宇宙星体实际位置的绝对运动定律。当时科学家相信随着越来越精确的测试,对误差函数的需求将逐渐消失由于有误差函数来表示预测值与观察值之间的微小差异,19世纪早期的科学可以说是受到了哲学上决定论(determinism)的掌控即相信所发生的任何事情都预先地决定于两点:(1)宇宙的初始条件;(2)描绘其运动的数学公式。

到了19世纪末误差并没有消失,反倒是增加了当测试越来越精确,误差也越来越多机械宇宙观处于动摇之中,试图发现生物学定律和社会学定律的努力也失败了茬物理和化学等传统科学中,牛顿和拉普拉斯所用的那些定律逐渐地被证明只是粗略的逼近。这样科学便渐渐开始在新的范式(paradigm)下運作,这新范式就是现实世界的统计模型到20世纪末期,几乎所有科学都转而运用统计模型了

大众文化还是没有跟上这种科学革命,尽管一些含混的观念和表述像相关(correlation)、胜率(odds)和风险(risk)等等,已经渗入了大众的词汇并且多数人意识到了不确定性问题,这是与諸如医学和经济学等学科领域相联系的但就已经发生的哲学观的深层转变而言,学界之外没有人能够对此有什么理解这些统计模型是什么?它们是怎么来的在现实生活中它们意味着什么?它们是现实的真实描述吗本书正是试图来回答这些问题,其中我们也想介绍一些先生和女士的生平故事这些人曾涉身于这场革命之中。

在处理这些问题时必须把三个数学概念区分开:随机(randomness)、概率(probability)和统计(statistics)。对大多数人而言随机只是不可预测性(unpredictability)的另一个说法。犹太教法典(Talmud)中的一则格言传达了这种通常的看法:“不应该去探尋宝藏,因为宝藏的发现是随机的;按照定义没有人能够寻找只会被随机发现的东西。”但是对现代科学家来说,随机性有许多不同嘚类型概率分布(probability distribution,这将在第2章中讨论)的概念允许我们对随机性加以限制并赋予我们有限的能力去预测未来的随机事件。因此对現代科学家而言,随机事件并不是杂乱的、不可预期的和不可预测的它们有一个可以用数学来描述的结构。

概率是一个非常古老概念的現代用语它曾出现在亚里士多德(Aristotle)的著作中。这位先哲声称:“不可能事件将会发生这正是概率的特性。”起初概率只是涉及到個人对什么事件即将发生的预测,在17和18世纪一批数学家,其中包括贝努里(Bernoullis)父子、费尔马(Fermat)、棣莫弗(de Moivre)、帕斯卡(Pascal)都在以机会博弈(games of chance)为起点去研究概率的数学理论他们发明一些非常高级的方法,用来计算等可能事件棣莫弗设法在这些技术中加进微积分的方法,贝努里则可以领悟出非常基础的定理叫大数定律(Laws of large numbers)。到了19世纪末期数理概率主要由一些非常高级的技巧构成,但还缺少坚实的悝论基础

尽管不够完善,还是可以证明概率理论对发展统计分布(statistics distribution)观念的作用当我们考虑一个特殊的科学问题时,就会产生一个统計分布例如,在1971年哈佛公共卫生学院所做的一项研究发表在英国的医学期刊《柳叶刀》(Lancet)上,这项研究旨在检验喝咖啡是否与下泌尿道癌有关研究的报告以一级病人为对象。其中一些人患有下泌尿道癌另一些人则患有其它疾病。报告的作者还搜集了这组病人的其咜资料如年龄、性别和家族的癌症病史等。结果证明并不是每个喝咖啡的人都会得泌尿道癌,也不是每个得泌尿道癌的人都圆角咖啡所以存在着与他们的假设相矛盾的事件。然而25%的此类癌症患者习惯每天喝4杯以上咖啡,只有10%的非癌症患者是这种咖啡嗜好者因而,姒乎有一些证据支持这种假设

这种资料的搜集给研究者提供了一个统计的分布。运用数理概率的工具他们为这个分布建造了一个理论公式,称之为概率分布函数(probability distribution function)或简称分布函数(distribution function),以此来检验所研究的问题它与拉普拉斯的误差函数相似,但却复杂许多运用概率论来建造理论分布函数,而这个函数用来描述从未来数据中所能得到的预期结果这些数据是以随机方式从同一总体的人群中提取的。

我不想使本书成为一本关于概率和概率论的书那是抽象的数据概念。本书涉及的一些概率定理在科学问题上的应用涉及统计分布和汾布函数的世界。概率论本身不足以说明统计方法有时甚至会出现这样的情形:科学中所用的统计方法违背了概率的定理。读者会发现夲书中概率时隐时现需要时被用到,不需要时则被忽略

由于现实世界的统计模型都是数学化的,充分理解它们只能用数学公式或符号嘚方式本书是一种野心不那么大的尝试,我打算描述发生在20世纪科学界的统计革命而手法是通过介绍一些参加过这场革命的人物(其Φ不少人至今还健在)。我只是涉猎他们创造性的工作试图让读者从中体会他们的个别发现是如何适应整个统计革命的。

仅就本书而言读者并不会学到对科学数据进行统计分析所需要的足够知识,那需要几年的循序渐进的学习但我希望读者看过本书后,能够对科学的統计观所代表的基本哲学的重大变革有所理解那么,不懂数学的人要理解这场科学革命应该从哪里开始呢?我以为一个不错的选择昰与女士一道品茶。

第3章 可爱的戈塞特先生

第4章 在“垃圾堆”中寻觅

第6章 “百年不遇的洪水”

第10章 拟合优度检验

第14章 数学界的莫扎特

第15章 “小人物”之见解

第17章 当部分优于总体时

第18章 吸烟会致癌吗

第19章 如果您需要最佳人选

第20章 朴实的德克萨斯农家小伙

第21章 家庭中的天才

第22嶂 统计界的毕加索

第23章 处理有瑕疵的数据

第24章 重塑产业的人

第25章 来自黑衣女士的忠告

第28章 电脑随心所欲

那是20世纪20年代后期,在英国剑桥一個夏日的午后一群大学的绅士和他们的夫人们,还有来访者正围坐在户外的桌旁,享用着下午茶在品茶过程中,一位女士坚称:把茶加进奶里或把奶加进茶里,不同的做法会使茶的味道品起来不同。在场的一帮科学精英们对这位女士的“胡言乱语”嗤之以鼻。這怎么可能呢他们不能想象,仅仅因为加茶加奶的先后顺序不同茶就会发生不同的化学反应。然而在座的一个身材矮小、戴着厚眼鏡、下巴上蓄着的短尖髯开始变灰的先生,却不这么看他对这个问题很感兴趣。

他兴奋地说道:“让我们来检验这个命题吧!”并开始筞划一个实验在实验中,坚持茶有不同味道的那位女士被奉上一连串的已经调制好的茶其中,有的是先加茶后加奶制成的有的则是先加奶后加茶制成的。

写到这里我可以想象,部分读者会对这种实验不以为意认为它不过是一帮精英们于夏日午后的一个小消遣。他們会说:“这位夫人能不能区分两种不同的注茶方式又有什么大不了的呢?这个问题并没有什么科学价值这些大人物更应该把他们的忝才用在对人类有所裨益的事情上去。”

不幸的是不管外行对科学及其重要性怎么想象,从我个人的经验来看大多数科学家之所以从倳科研活动,只是因为他们对结果感兴趣或者能够在工作中得到理性的刺激。好的科学家很少会想到工作的最终重要性剑桥那个晴朗夏日的午后也是这种情景。那位夫人也许能、也许不能正确地品出不同的茶来但这无关紧要,因为实验的真正乐趣,在于找到一种判斷该女士是对还是错的方案来于是,在蓄着胡须先生的指导下大家开始讨论应该如何进行实验判断。

接下来在场的许多人都热心地加入到实验中来。几分钟内他们在那位女士看不见的地方调制出不同类型的茶来。最后在决战来临的气氛中,蓄短胡须的先生为那位先生为那位女士奉上第一杯茶女士品了一小会儿,然后断言这一杯是先倒的茶后加的奶 这位先生不加评论地记下了女士的说法,然后又奉上了第二杯……

这个故事是我在20世纪60年代后期,从一个当时在场的先生那里听到的这位先生就是休?史密斯(Hugh Smith),但他都是以H?费尔菲尔德?史密斯(H. Fairfield Smith)的名义发表科研论文我认识他的时候,他在位于斯托尔斯(Storrs)的康涅狄格大学(the University of Connecticut)任统计学教授而我则是两年以前茬这个大学拿到了统计学博士学位。在宾州大学(the University of Pennsylvania)教了一阵子书后我加入到了辉瑞公司(Pfizer Inc.)的临床研究部门。这是一家大型制药公司它的研究园区坐落在格罗顿(Groton),离斯托尔斯大约一个小时的车程。当时我是那里唯一的统计学家。在辉瑞期间我要处理许多疑难的數学问题,还要负责给他们讲解这些问题并告诉他们,对这些问题我个人的结论是什么。

在辉瑞工作期间我发现,科研工作几乎不能独立完成通常需要不同智慧的结合。因为这些研究太容易犯错误了。当我提出一个数学公式作为解决问题的工具时这个模型有时鈳能并不适合;或者我就所处理情况而引入的假设并不真实;或者我发现的“解”是公式中的失误部分推导出来的;甚至我可能在演算中絀了错。

无论何时我去斯托尔斯的大学拜访,与史密斯教授探讨问题或者,与辉瑞的化学专家、药理专家坐在一起讨论我提出的问題都会受到欢迎,他们对这种讨论充满兴趣和热情对大多数科学家来说,工作中令他们最感兴趣的就是解决问题时那种兴奋感。因此在检验并试图理解问题时,他们期盼着与他人交流

剑桥那个夏日午后的情形正是如此,那个留着短胡须的先生就是罗纳德?艾尔默?费歇爾(Ronald Aylmer Fisher)当时他只有三四十岁。后来他被授予爵士头衔。1935年他写了一本叫《实验设计》(The Design of Experiments)的书,书的第2章就描述了他的“女士品茶”实验在书中,他把女士的断言视为假设问题他考虑了各种可能的实验方法,以确定那位女士是否能做出区分设计实验时的问题是,如果只给那位女士一杯茶那么即使她没有区分能力,她也有50%的机会猜对如果给两杯茶,她仍可能猜对事实上,如果她知道两杯茶汾别以不同的方式调制她可能一下子全部猜对(或全部猜错)。

同样即便这位女士能做出区分,她仍然有猜错的可能或者是其中的┅杯与奶没有充分地混合,或者是泡制时茶水不够热即便这位女士能做出区分,也很有可能是奉上了10杯茶她却只是猜对了其中的9杯。

茬这本书中费歇尔讨论了这个实验的各种可能结果,他叙述了如何确定这样一些问题:应该为那位女士奉上多少杯茶这些茶应该按什麼样的顺序奉上?对所奉各杯茶的顺序应该告诉那位女士多少信息依据那位女士判断的对错与否,费歇尔搞出了各种不同结果的概率泹在讨论中,他并没有指明这种实验是否真的发生过也没有叙述这次实验的结果。

费歇尔书中有关实验设计的著述是科学革命的要素之┅这场革命在20世纪前半叶席卷了科学的所有领域。早在费歇尔出道以前科学实验已经进行了几百年。在16世纪后期英国的威廉?哈维(William Harvey)用动物做实验,他将不同动物静脉和动脉里的血液堵住试图追踪血液从心脏到肺,回流到心脏流向全身,再回到心脏的循环路线

費歇尔没有发现实验是增长知识的方法。费歇尔之前实验对每个科学家而言都是有其特性的。优秀的科学家可以做出产生新知识的实验而二流的科学家常常从事的是积累数据的实验,但对知识增长没有什么用处为说明这点,可以举发生在19世纪后期的一个例子那时的科学家就测量光速做了许多无关要旨的努力,而直接到美国物理学家艾伯特?米切尔森(Albert Michelson)用光线和镜子建造了一个特别精巧的系列实验財第一次得到好的估计。

在19世纪科学家很少发表实验结果。他们所做的是论述自己的结论并发表能证明结论真实性的数据。格雷戈尔?門德尔(Gregor Mendel)没有展示出他全部豌豆培育实验的结果他叙述了他的系列实验,然后写道:“两组系列实验的前10个数据可以用来说明……”茬20世纪40年代费歇尔检验了门德尔用来说明结论的数据,发现这些数据过分完美以至于失真,它们并没有表现出应该具有的随机程度

盡管科学从审慎思考、观察和实验发展而来,但从来不清楚应该怎样从事实验实验的全部结果通常也没有展现给读者。

19世纪末和20世纪初嘚农业研究中上述情况尤为明显。20世纪早期费歇尔在农业实验站工作在费歇尔去那儿工作之前,这个实验站已经进行了约90年的肥料构荿(称之为人工肥料)实验在一个典型的实验中,工人将磷肥和氮肥的混合物撒在整块田中然后种植作物,测度收成和整个夏季的雨量这里有精巧的公式用来“调整”某年或某块地的产量,以便与另一块地、或同一块地的另一年产量相比这被称为“肥力指数”。每┅个农业实验站都有自己的肥力指数而且都认为自己的指数是最精确的。

90年的实验结果不过是一堆未经发表、了无用处的混乱数据看來某些品种的小麦对某种肥料反应优于其它品种,但只是在降雨过量的年份如此其它实验似乎显示:第一年用钾硫化物,第二年用碳酸硫化物会使某些品种的马铃薯增产,而对其它品种并非如此因此,就这些人工肥料充其量可以说,其中有些在有的时候可能或大概有效。

作为一个卓越的数学家费歇尔审视了农业科学家用来修正实验结果的肥力指数,这些指数是用来解释不同年份气象变化所造成嘚差异的他还检查了其它农业实验站所用的同类指数。当简化为基本的代数式时这些指数不过是同一公式的不同表现形式,换句话说看似激烈争斗的两个指数,其实起着同样的修正作用1921年,费歇尔在农业科学领域的领军期刊《应用生物学年报》(the Annals of Applied Biology)上发表了一篇论文攵中他指出了采用哪种指数并没有什么差异,并且所有修正都不足以调整不同地块上的肥力差异。这篇非凡的论文终止了一场持续20多年嘚科学论战

费歇尔接着检查了过去90年来的雨量和收成数据,指出年度间不同气候的影响远远大于不同肥力的影响用费歇尔后来在他的實验设计理论里发明的一个词来说,“混合”(confounded)的这意味着用已有的实验数据是不能将二者分开的。90年的实验和20年的科学论战几乎是無谓的浪费

这使得费歇尔专注于实验和实验设计的思考。他的结论是:科学家需要从潜在实验结果的数据模型开始工作这是一系列数據公式,其中一些符号代表实验中将被搜集的数据其它则代表实验的全部结果。科学家从实验数据开始并计算与所考虑科学问题相应嘚结果。

让我们考虑一个关于一个老师和某个学生的简单例子这个老师非常想找出一些关于这个孩子学习情况的测试数据,为了达到这個目的老师对孩子进行了一组考试,每一个考试都在0到100之间评分任何一个单一的考试都不可能对孩子知识的掌握提供可靠的评估;这個孩子可能是没有学习多少考试所涉及的内容,但是知道不少考试以外的事情;可能是这个孩子在参加考试那天头疼;还可能是参加考试那天早上孩子与父母发生了争执由于种种原因,单一考试不能对知识量提供好的估计所以老师进行了一组考试,然后计算出所有考试嘚平均分来评价孩子的知识量这样的估计结果会更好,多少分是孩子知识量的实验结果而每一个单独考试的分数则是数据。

那么老师應该如何组织考试是搞那种只包括几天前所教授内容的系列考试,还是每次考试都从考试前所教授的全部内容中提取一部分考试是一個星期搞一次,还是每天搞一次或者在每个教学单元结束时搞?所有这些都是实验设计涉及到的问题

如果农业科学家想知道某种人工肥料对小麦生长的效用,就要构建一个实验以取得效用估计时所需要的数据费歇尔表明,实验设计的第一步是建立一组数学公式用以描述待搜集数据与欲估计结果之间的关系,因此任何有用的实验必须是能够提供估计结果的。实验必须是有效的能够让科学家测定出氣候的差异和不同肥料的使用对产量差别的影响。特别是有必要包括同一实验中打算加以比较的实验处理(treatments),即那些后来被称为“控制組件”(controls)的东西。

在他那本关于实验设计的书中费歇尔提供了几个实验设计的范例,并导出优秀设计的一般原则然而,费氏方法中所涉及到的数学非常复杂多数科学家设计不了自己的实验,除非他们遵循费歇尔书中提出的实验设计中的某个模式

农业科学家认识到費歇尔工作的伟大价值,在大多数说英语的国家中费氏方法很快便成为农业科研的主流学派。从费歇尔的原创性工作出发用来论述不哃实验设计的完整科学文献发展起来。这些设计被应用到农业以外的领域包括医学、化学和工业质量管理。在许多案例中所涉及的数學高深且复杂,但此时此刻我们不妨停下来想想,科学家不可能不假思索地动手实验这通常需要长时间的审慎思考,而且其中通常會有大量的、高难的数学。

至于前面所说的女士品茶——那个在剑桥晴朗的夏日午后所做的实验中那位女士怎样了呢?费歇尔没有描述這项实验的结果但史密斯教授告诉我,那位女士竟然正确地分辨出了每一杯茶!

像人类思想史上的许多革命一样要想找到统计模型成為科学组成部分的确切时刻,也是很难的人们可以在19世纪初德国和法国数学家的工作中找到可能存在的特例,甚至在17世纪伟大的天文学镓约翰尼斯?开普勒(Johannes Kepler)的论文中也能找到某种启示。正像本书前言中所提到的那样拉普拉斯(Laplace)发明了误差函数来说明天文学中的统計问题,但我仍然倾向于把统计革命的发生定位于19世纪90年代K?皮尔逊(Karl Pearson)的工作查尔斯?达尔文(Charles Darwin)把生物变异认作生命的基本面,并将之莋为适者生存理论的基础然而,是他的英国伙伴K?皮尔逊首先认识到统计模型的根本性质以及这种模型对19世纪科学中的决定论观点提供叻哪些不同的东西。

当我在20世纪60年代开始学习数理统计时K?皮尔逊的名字在课上很少被提到。当我与这一领域的大人物共同探讨一些问题時也听不到对K?皮尔逊及其著作的参考。他或者是被忽略了或是被视为行为早已出局的次要人物。例如美国国家标准局(the U.S. National Burean of Standards)的邱吉尔?艾森哈特(Churchill College,London)学习,那是K?皮尔逊人生的最后几年艾森哈特记忆中的K?皮尔逊不过是一个精神头不足的老头儿。统计研究的步伐已经将他推絀局外他和他的工作被埋进故纸堆中,青年学生神采飞扬集聚在新的大人物周围学步,其中之一便是K?皮尔逊自己的儿子,但是没有囚去拜见老皮尔逊他的办公室孤零零地坐落在那里,远离着活跃的、振奋人心的新研究

当然并不总是如此,在19世纪70年代年轻的K?皮尔遜离开英国,到德去从事政治科学的研究生学习在那里,他倾心于卡尔?马克思(Karl Marx)的著作为了表达崇拜之情,他把自己名字的拼法从Carl妀成Karl带着政治学博士的学位,他回到了伦敦并在这个领域写过两本值得重视的著作。在维多利亚时代的英国伦敦的拘谨之风最甚,K?皮尔逊却大胆地效仿德国和法国上流社会的沙龙组织了一个青年男女谈话俱乐部(Young Mens and Womens Discussion Club)。俱乐部的青年男女平等地聚焦在一起(未婚少女並没有人陪伴)讨论世界上重大的政治和哲学问题。K?皮尔逊正是在那种环境下与夫人相遇而结缘的这个事实使人感到发起这类俱乐部鈳能另有动机。这个小小的社会冒险对我们进入K?皮尔逊的内心世界提供了帮助可以见证他对已经建立起来的传统是那样地不以为意。

尽管拿的是政治学博士学位K?皮尔逊的主要兴趣还是在科学哲学和数学模型的性质上。19世纪80年代他发表了《科学的法则》(The Grammar of Science),这本书后來再版了多次在第一次世界大战之前的一段时间里,它被视为关于科学和数学性质最伟大的著作之一其中充满了闪光的、原创性的、朂具洞察力的见解,这使该书成为科学哲学的一本重要著作同时,它又是以流畅、简单的风格写成任何人都可以接受,你不必懂得数學就可以理解《科学的法则》尽管从写作之日算起,这本书已经有100多年的历史了但其中充满洞察力的见解和思想,对21世纪的数学研究仍然是适用的。而它所提供的对科学性质的理解至今也是真实的。

高尔顿的生物统计实验室

在人生的这个时段K?皮尔逊感受到了英国科学家弗朗西斯?高尔顿(Francis Galton)爵士的影响。大多数人知道高尔顿这个名字缘于他是指纹现象的“发现者”。高尔顿的贡献是认识到指纹对烸一个人都是独特的此外,还有通常用于识别和分类指纹的方法指纹的唯一性存在于手指类型中出现的不规则标识和切面,这被称为“高尔顿标识”(Galton Marks)高尔顿做的远比这多,作为一个只是将生物学算作其业余爱好的科学家通过数字模型的研究,他寻求将数学的严密引入生物学这同样是富有价值的。他所初创的各种调查当中的一项是对天才遗传的研究。在这项研究中他搜集了有关父子的信息,这些人因智商高而闻名但由于当时对智力的测量没有什么好的办法,他发现研究这个问题特别困难于是他决定转向诸如身高之类的遺传特性的研究,因为这更容易测量些

高尔顿在伦敦成立了生物统计实验室(biometrical laboratory),并打广告动员不同的家庭来做测量在这个实验室,怹搜集身高、体重数据测量特殊的骨骼和家庭成员的其它特性。他和他的助手将这些数据列成表格并一再检验,他是在寻找利用父母測度数据来推断子女的某些办法比如说,很明显高个子父母很容易有高个子的小孩,但是不是存在某些数学公式只用父母的身高就鈳以预测孩子将有多高呢?

高尔顿用这种方法发现了他称之为“向平均回归”(regression to the mean)的现象,这表现为:非常高的父亲其儿子往往要比父亲矮一些;而非常矮的父亲,其儿子往往要比父亲高一些似乎是某种神秘的力量,使得人类的身高从高矮两极移向所有人的平均值鈈只是人类身高存在着向平均数回归的现象,几乎所有的科学观察都着了魔似的向平均值回归在第5章到第7章,我们将看到费歇尔如何能够将高尔顿向平均值回归的思想纳入统计模型,而这种模型现在支配着经济学、医学研究和工程学的很多内容高尔顿仔细思考了他的驚人发现,而后认识到这必定是真实的在进行所有观察之前这就是可以预言的。他说假设不发生这种向平均值的回归,那么从平均意義上看高身材父亲的儿子将与他们的父亲一样高,在这种情况下一些儿子的身材必须高于他们的父亲,以抵消身材比父亲矮小者的影響使平均值不变。高身材者这一代人的儿子也将如此那么会有一些儿子身材更高。这个过程将一代一代延续下去同样地,将会有一蔀分儿子身材比他们的父亲矮小而且有一部分孙子将更加矮小,如此下去不用多少代,人类种族就将由特别高和特别矮的两极构成

仩述的情形并没有发生,人类的身高在平均意义上趋向于保持稳定只有当非常高的父亲其儿子平均身材变矮,而非常矮的父亲其儿子的岼均身材变高才能出现这种稳定。向平均值回归是一种保持稳定性的现象它使得某给定物种代际之间大致相同。

高尔顿发现了这种关系的一种数学测度他称之为“相关系数”(coefficient of correlation)。高尔顿给出了明确的公式以计算这个系数,所用的资料则是在生物测量实验室搜集的这是一个非常详细而明确的公式,它只计算了向平均值回归的一个方面但没有告诉我们任何有关这种现象原因的信息。正是在这个意義上高尔顿最先使用了“相关”这个字眼,这之后它演变进入了大众词汇与高尔顿特定的相关系数相比,“相关”经常被用来表示更為模糊的东西尽管“相关”本身有严格的科学含义。科学圈外的人经常说到这个词似乎它描述了两种事物如何相联系,但除非你涉及箌高尔顿的数学测量否则,当你使用高尔顿用于特别目的的“相关”这个词时它不必那么精确。

有了这个计算相关的公式高尔顿实際上已经非常接近新的革命性观念了,这个观念革命在20世纪几乎修正了所有的学科但却是他的弟子K?皮尔逊,在非常完整的意义上第一个規范地阐明了这个观念

为了理解这个革命性的观念,你必须将已有的关于科学的成见抛开通常我们被教导,科学就是测量我们进行精心的测量,并用它来寻找描述自然的数学公式在高中的物理课中我们学过,当时间给定时一个自由落体的运行将遵循一个含有符号“g”的公式,这里的“g”是关于重力加速度的常量我们学过可以用来确定“g”的值的实验。然而当高中生们进行一系列确定值的实验時,顺着斜板滚动小球并测量小球需要多长时间到达不同的位置时,发生了什么呢这就是很少得出确切的结果。学生进行实验的时间樾长困惑就越多,因为不同的实验得出了不同的“g”值老师仅凭自己优越的知识来审视学生的实验,并认定学生之所以得不到正确的結果要么是因为工作草率,要么是因为不够细致要么是抄错了数据。

老师没有告诉学生的是:所有的实验都是草率的并且,即使是朂精心的科学家也很少得到确切的数值。不可预见和不可观察的小扰动在每一个实验中都有:室内的空气可能太潮湿或者落体在滚动湔卡住了一个微秒,旁边飞过的蝴蝶可能会有其影响:造成气流的轻微扰动人们从一个实验中真正得到的是散乱的数据,其中没有一个單个数据是确切的但所有这些数据可以用来对确切值进行近似的估计。

武装了K?皮尔逊的革命性观念我们就不再将实验结果看作精心测量得出的数据,它们也不是本来就确切的用更容易接受的术语来代替:它们是一组散布数据,或一个数据分布中的样本数据的分布可鉯写成数学公式,它告诉我的数值是不可预测的我们只能谈论概率值而不是确定值,单个实验的结果是随机的在这个意义上看它们是鈈可预测的,然而分布的统计模型却使我们能够描述这种随机的数学性质。

科学家花了一些时间才认识到观测值所固有的随机性质在18囷19世纪,天文学家和物理学家创造出描述他们观察值的数学公式达到了可接受的精确程度,在为测量工具不够精确所以观察值与预测徝之间的是预料之中的,可以忽略不计星体和其它天体的运动被假定遵循运动基本公式所确定的精确路径,其不确定性是由于简陋的测量工具造成的并不是其固有的性质。

随着物理学中更为精确的测量工具的发展随着将这种测量科学扩展到生物学和社会学的尝试,大洎然所固有的随机性越来越明显了怎么处理它?一种办法是坚持数学公式的精确性将观测值与预测值之间的离差视为小的、无关紧要嘚误差。事实上早在1820年,拉普拉斯的数学论文描述了第一个概率分布即误差分布,那是一个与这些小的、无关紧要的误差相联系的概率的数学公式这个误差分布以钟形曲线(bell-shaped

这使K?皮尔逊比正态分布或误差分布更进了一步,审视生物学中积累的数据K?皮尔逊认为,测量徝本身而不是测量的误差,就具有一种正态分布我们所测量的,实际上是随机散布的一部分它们的概率通过数学函数——分布函数被描述出来。K?皮尔逊发现了被他称为“偏斜分布”(skew distribution)的一组分布函数他宣称,这组函数可以描述科学家在数据中可能遇到的任何散布類型这组函数中的每一个分布由四个数字所确定。

用来确定分布函数的这些数字与测量中的数字不属于同一类型这些数字决不会被观察到的,但可以从观测值散布的方式中推导出来这些数字后来被称为参数(parameters——源自希腊语,意思是“几乎测量”(almost measurements))能够完整地描述K?皮尔逊体系中数字的四个参数分别被称为:

1. 平均数(the mean)——测量值散布状态的中间值;

3. 对称性(symmetry)——测量值在平均值一侧规程的程喥;

4. 峰度(kurtosis)——个别的观测值偏离平均值有多远。

用K?皮尔逊偏斜分布体系去考虑问题思路会有一种微妙的转移。在K?皮尔逊之前科学所处理的事情都是真实的。开普勒试图发现行星如何在空间运行的数学规律;威廉?哈维的实验打算确定血液如何在某一特定动物的静脉和動脉中游动;化学则处理元素和由元素组成的化合物然而,开普勒所试图追踪的“行星”实际上是一组数据用来给地球上的观测者所看到的天空中微弱的光点定位。单匹马身上血液通过静脉流动的实际情形也许与在另一匹马或者一个人身上所可能看到的不同。没有人能够生产出纯铁的样本尽管谁都知道铁是一种元素。

K?皮尔逊提出这些观测到的现象只是一种随机的映像,不是真实的所谓的真实是概率分布。科学中真实的东西并不是我们所能观测到或能把握到的它们只是通过用来描述我们所观测事物随机性的数学函数来反应。科學调查中我们真正想确定的是分布的四个参数。从某种意义上说我们永远不能确定这四个参数的真实数值,而只可能从资料中估计它們

K?皮尔逊并没有意识到这关键的一点,他以为如果我们能够搜集到足够的数据去估计参数,就会得到参数的真实数值而他的年轻对掱费歇尔指出,K?皮尔逊的许多估计方法并不是最优的在20世纪30年代末期,当K?皮尔逊临近他漫长生命的终点之际一位杰出的波兰年轻数学镓耶日?奈曼(Jerzy Neyman)表明,K?皮尔逊的偏斜分布体系并没有包含所有可能存在的分布许多重要问题不能用K?皮尔逊的体系解决。

还是让我们离开1934姩那个被离弃的老皮尔逊吧回到他三四十岁、精力充沛的时期,那时的他对自己所发现的偏斜分布充满了热情1897年,他接管了高尔顿在倫敦的生物统计实验室带领一支年轻的娘子军(被称为“计算员”),计算高尔顿所积累的人种测量数据的分布参数在20世纪之交,高爾顿、K?皮尔逊和R?韦尔登(Rerhael Weldon)共同努力创办了一个新的科学期刊,这将使K?皮尔逊的观点应用到生物数据上高尔顿用他的个人财富建立了┅个信托基金支持这个期刊。在第一期编辑们提出了一个雄心勃勃的计划。

当时英国科学家中有一位杰出的人物,他就是达尔文同期的科学家们致力于探索达尔文富有洞察力的见解,高尔顿、K?皮尔逊和韦尔登便是其中相当热心的骨干达尔文的进化理论认为,生命形式随着环境压力而变化他提出,变化的环境会给更适应新环境的随机变化提供些许的优势渐渐地,伴随着环境改变和生命形式继续发苼随机转变新物种将会出现并且更适于在新的环境中生存和繁殖。这一思想被简称为“适者生存”(survival of the fittest)当恣意妄行的政治学家将其用於社会生活,宣称那些在经济竞争中取得胜利的富人比身陷贫困的穷人更为适于生存时这一理论对社会就有不好的影响——适者生存理論成了猖狂的资本主义的辩护者,在那里富人被授予了道义上的特权去鄙视穷人。

在生物科学中达尔文的思想似乎很有道理。达尔文鈳以指出相关物种的相似性作为现代物种从先前物种演化而来的佐证。达尔文表明物种上些许不同的小型鸟类,即使是生活在孤岛上也有许多解剖学上的共性。他指出不同物种胚胎之间的相似性,这包括人类的胚胎在开始是有尾巴的。

有一件事是达尔文做不到的那就是他不能给出人类历史的时间框架中,新物种实际出现的例子达尔文设定新物种由于适者生存而出现,但没有证据他不得不做嘚只是展示现代物种很好地适应了它们所处的环境。达尔文的说法似乎只是表明了已知的事情而且理论本身有一个很吸引人的逻辑结构,但是如果套用犹太人的一句老话就是“举例并不是证明”(For instance is no proof)

K?皮尔逊、高尔顿和韦尔登打算在他们的新期刊中将这事搞清楚。在K?皮尔遜看来只有概率分布是真实的,达尔文的雀鸟(他在书中用到的一个重要例子)并不是科学调查的对象而某一种雀鸟的总体随机分布財是这个对象。对某一给定雀鸟种类而言如果能够测量其全体的喙长,这些喙长的分布函数将有四个参数这四个参数将是这一种雀鸟嘚喙长。

K?皮尔逊说假如存在着某种环境力量,通过提供优越的生存能力使得某一物种产生某种特定的随机变化,我们也许不能生存得那么久以看到新物种的出现,但我们能够看到分布的上个参数的变化在他们期刊的创刊号上,三位编辑宣布:他们的新期刊将从全世堺搜集数据以确定这些分布的参数。最终期望表明样本参数的变化与环境变化相关。

他们将新期刊定名为《生物统计》(Biometrika)高尔顿創建的生物统计基金会给予它慷慨资助。由于资金是这样地充裕以至于该期刊成为世界上第一本印有全彩照片的期刊,甚至还带着画有複杂图画的下班纸折页期刊以高品质的优质纸印刷,连最复杂的数学公式也展示了出来尽管那意味着极端复杂和昂贵的排版工艺。

接丅来的25年里《生物统计》发表了通讯员们从各地发来的数据:有的深入非洲的丛林,测量原住民的胫骨和腓骨;有的从中美洲的雨林抓箌奇特的热带鸟类测量其喙长;还有的甚至偷盗古墓,揭开死人头盖骨灌铅以测量其脑的容量。在1910年该期刊发表了几幅全彩照片,畫面是俾格米男人裸躺在地上的生殖器旁还摆着量尺。

在1921年一个年轻的女通讯员朱莉亚?贝尔(Julia Bell)描述了她在试图对阿尔巴尼亚新兵进荇人类形体测量时所遇到的困难。她离开维也纳去阿尔巴尼亚一个边远的基地本以为可以得到讲德语军官的帮忙,当她抵达时才发出那里只有一个士官能说三句德语。她无所畏惧地拿出了测量所用的铜标尺通过形体动作让那些年轻人理解她要干什么,直到他们按要求抬起手臂和脚

对每一组这样的数据,K?皮尔逊和他的计算员们都计算出分布的四个参数论文将展示最佳分布的图示,并评论该分布与其咜相关数据的分布有何不同回顾过去,很难看出所有这些行动怎样帮助证明了达尔文的理论浏览《生物统计》的这些作品,我得到这樣一种印象:这些工作不久就变成为自身原因而进行努力除了给特定数据组估计参数外,没有实际目的

在期刊中还夹杂着其它类型的論文,其中一些涉及理论数学以处理发展概率分布时遇到的问题。比如在1908年一个不知姓名的作者,以“学生”(“student”)为笔名发表了論文提出了后来几乎在所有现代科学工作中都有作用的研究成果——“学生”的“t检验”。接下来的几章我们还会遇到这位匿名的作者并将讨论他在K?皮尔逊与费歇尔之间作调解时的不幸角色。

高尔顿死于1911年而韦尔登则于这之前死于阿尔卑斯山的一次滑雪事故。只剩下叻K?皮尔逊这唯一的编辑和信托基金的支配者在接下来的20年中,期刊成了K?皮尔逊个人的了期刊发表什么完全以K?皮尔逊的判断为准,由他確定重要与否K?皮尔逊为期刊写了很多社论,他让自己丰富的想象驰骋在各个领域比如,在对一个古老的爱尔兰教堂翻修时墙壁中发現了一副骨骼,K?皮尔逊通过对这些骨骼的测量和所涉及的数学推理来确定它们事实上是不是某个中世纪圣徒的遗骨。再比如一个据称昰奥利弗?克伦威尔(Oliver Cromwell)的头骨被发现了,K?皮尔逊以一篇精彩的文章对其进行了研究该文描述了所知的克伦威尔尸体的下落,并且还将对克伦威尔画像所做的测量结果和该头骨 所做的测量进行了比较在另外一些论文中,K?皮尔逊检验了古罗马各君主的统治期和贵族阶级的没落还涉猎了社会学、政治学和植物学。所有这些都带有复杂的数学解释。

就在去世之前K?皮尔逊还发表了一篇题为“论犹太人与非犹呔人关系”(On Jewish – Genlile Relationships)的短文。文中他分析了从世界各地收集到的犹太人与非犹太人的人体测量数据最后得出的结论是:德国国家社会主义(the National Socialists)(正式的名称是纳粹(Nazis))的种族理论纯粹是胡说八道,根本就没有犹太种族(Jewish race)或亚利安种族(Aryan race)那回事这最后一篇论文与他以湔的工作一样,组织清晰有逻辑性,推理谨慎

K?皮尔逊运用数学研究了人类思想的许多领域,而很少有人将这些领域视为科学的正宗地盤浏览生物统计上他所写的社论,你仿佛看到了一个兴趣十分广泛的人他具有直切问题核心的惊人能力,并能用数学模型去加以处理还有浏览这些社论,你就像遇上一个意志坚定、主见鲜明的人说实话,如果不需要与他争辩的话我想我是很乐意与K?皮尔逊共处一天嘚。

K?皮尔逊他们是否证明了达尔文适者生存的进化论理论呢也许是吧。通过将古墓中头骨的容量分布与现代男女的比较他们设法证明:经历了几千年深化的人类种群保持了相当的稳定。他们表明:对澳洲原住民的人类学测量与对欧洲人的测量结果有着相同的分布据此,他们推翻了某些澳洲人关于原住民不是人类的断言K?皮尔逊从这些工作中发展了一种被称为“拟合优度检验“(goodness of fit test)的基本统计工具,这昰现代科学所不可缺少的它使科学家能够确定一组给定的观测值是否适合于某一特定的数学分布函数。在第10章我们会看到K?皮尔逊的儿孓E?皮尔逊(Eqon Pearson),是如何用这种拟合度检验是否定他父亲所完成的许多项工作的

随着20世纪的来临,《生物统计》中讨论数理统计理论问题嘚文章越来越多少量的文章仍停留在处理特定数据的分布。当K?皮尔逊的儿子E?皮尔逊接班成为编辑时期刊的性质就完全转型为理论数学叻。时至今天《生物统计》仍是这个领域中卓越的刊物。

但他们到底有没有证明适者生存这个说法呢20世纪初曾经有一个最接近的研究。韦尔登构想了一项宏大的实验:18世纪英格兰南部瓷器工厂的发展导致了一些河道被粘土淤塞,普利茅斯(Plymouth)港和达特茅斯(Dartmouth)港也都受到了影响近陆地区比近海地区淤得更为严重。韦尔登从这些港口抓了几百只螃蟹分别放入广口瓶中,其中一半用内港的淤泥水另┅半用外港的较干净的水。一段时间后仍有螃蟹存活韦尔登测量它们的壳,以确定两组螃蟹的分布参数

正像达尔文所预言的那样,淤苨水中戚的螃蟹在分布参数上有了变化!这是不是证明了进化论呢不幸的是,韦尔登在写出实验结果前就死了K?皮尔逊对数据进行了粗畧的分析,他描述了这个实验及其结果但最后的分析却始终没有搞出来。为这项实验提供资助的英国政府要求提供最终报告但报告了無踪影,韦尔登死了实验也夭折了。

就生命周期很短的生物如细菌和果蝇而言,达尔文的理论最终被证明是真实的用这些物种,科學家可以在较短的一个时间段里完成几千代的实验现代的DNA研究,作为遗传的基石已经为物种之间的关系提供了更为有力的证据。如果峩们假定突变率在过去千万年或更长的时间里保持不变那么DNA的研究可以用来估计灵长类和其它哺乳动物出现的时间框架,至少它经了几百万年大多数科学家现在都把达尔文的进化论作为正确的东西接受下来。没有其它理论与所知数据吻合的如此之好于是科学界满足了,原来人们认为需要通过确定分布参数转变来表明较短时间里的进化过程一日三餐这种观念已经被放弃。

K?皮尔逊的革命所留下来的是这樣一个观念:科学的对象并不是不可观测事物本身而是数学分布函数,以描述与所观测事物相联系的概率今天,医学研究运用精巧的汾布数学模型来确定治疗方法对长期存活的可能效果;社会学家和经济学家用数学分布来描述人类社会的行为;物理学家用数学分布来描述次原子粒子科学里没有哪一个方面从这场革命中逃脱。有的科学家宣称概率分布的使用只是一时的权宜之中,最终我们会找到一种途径回到19世纪科学的决定论爱因斯坦有句名言,他不相信上帝在和宇宙玩骰子就是这种观点的例子。其他人则相信大自然基本上是隨机的,真实性只存在于分布函数之中不管一个人的基本哲学是什么,事实仍然是K?皮尔逊关于分布函数和参数的思想统治了20世纪的科學,并在21世纪初仍保持着优势

第3章 可爱的戈塞特先生

爱尔兰都柏林的吉尼斯酿造公司(Guinness Brewing Company)是一个声誉卓著的老牌酿造公司,该公司于20世紀初开始投资于科学年轻的吉尼斯刚刚继承这家企业,他就决定雇用牛津和合格大学在化学上顶尖的毕业生以便将现代科学技术引进箌公司的业务中来。在1899年他招募威廉?西利?戈塞特(William Sealy Gosset)进入公司,那是个23岁的牛津大学新秀拥有化学和数学两个学位。戈塞特的数学背景在当时是传统的包括微积分、天文学和机械式宇宙观下的其它科学分支,K?皮尔逊的创新和后来成为量子力学的萌芽观念还没有进入夶学的课程。戈塞特是由于他的化学专长而被吉尼斯雇用的对一个酿酒企业来说,要一个数学家又有什么用呢

戈塞特成为吉尼斯一项佷好的投资,他表明自己是一个很能干的管理者最后他在公司里升任负责大伦敦区业务的主管。事实上他对本行工艺做出了第一项主偠贡献是以数学家的身份来完成的。几年前丹麦电话公司(the Danish telephone company)是第一个雇用数学家的实业公司,但他们有一个明确的数学问题:制造多夶的电话交换板可制造啤酒又有什么数学问题需要解决呢?

戈塞特在1904年发表了第一篇文章处理的是这样一个问题:麦芽浆准备发酵的時候,需要仔细地测量所用酵母的量酵母是活的有机体,酵母培育需要保持鲜活加入麦芽浆前它在瓶中的液体里系列。工人们得到测量清楚某个给定的瓶中有多少酵母以便决定用多少液体,它们提取一定量的液体在显微镜下检验,计量他们所看到的酵母细胞数这種测量有多精确?了解这一点是很重要的因为麦芽浆中所用的酵母数应该精确地控制。酵母太少发酵不充分;太多了,啤酒又会发苦

注意这个问题与K?皮尔逊对科学的观念是多么的吻合。测量的是样本中酵母细胞的量但所寻求的真实“东西”是整个瓶中酵母细胞的浓喥。由于酵母是活的而细胞不断地分裂和繁殖,那个“东西”实际上并不存在在某种意义上,真正存在的是单位液体中酵母细胞的概率分布戈塞特检验了数据,确定酵母细胞的数量可以用所知的泊松分布(Poisson distribution )来描述这并不是K?皮尔逊偏斜分布家族中的一种概率分布。倳实上它是一种只有1个(而不是4个)参数的特殊分布。

确定了样本中的活酵母细胞数服从泊松分布戈塞特就能够设计规则和测量方法,从而得到对酵母细胞浓度更为精确的测量用戈塞特的方法,吉尼斯能够生产质量更稳定的啤酒

戈塞特想找一份适合的期刊发表这个結果,泊松分布(或相应的公式)已经被发现100多年了过去一直试图在现实生活中寻找实例,其中之一便是计量普鲁士军队中被马踏死嘚士兵人数。在酵母细胞计量中戈塞特有一个清楚的实例,还有对统计分布新观念的重要应用然而,这违背了公司不准许雇员发表文嶂的政策几年前,吉尼斯一位优秀的酿造师写了一篇文章其中泄露了他们某个酿造过程的秘密成份。为了避免进一步损失吉尼斯禁圵它的雇员发表文章。

戈塞特成了当时《生物统计》编辑之一的K?皮尔逊的好朋友而K?皮尔逊对戈塞特的数学能力印象很深。1906年戈塞特说垺了他的老板,数学的新思想对啤酒公司是很有用的并到高尔顿生物统计室在K?皮尔逊门下脱产学习一年。这之前两年当戈塞特描述他處理酵母的结果时,K?皮尔逊急于将之付印于他的期刊他们决定用匿名的方式发表文章,于是戈塞特的首次发现是仅是以“学生”的名義发表的。

在其后30年中“学生”写了一系列极为重要的论文,几乎所有的都发表在《生物统计》上从某些方面看,吉尼斯家族已经发現了他们“亲爱的戈塞特先生”违反了公司的规定一直私下里撰写并发表科学论文。“学生”的数学活动大多是在家里进行并且是在囸常的工作时间之外。戈塞特在公司升迁到了负更多责任的位置这表明他的副业并没有使吉尼斯公司受损。有这样一种不足为凭的说法:吉尼斯家族第一次知道这件事是在1937年戈塞特突然死于心脏病,他数学界的朋友与吉尼斯公司探讨想帮助支付其论文集的印刷成本。鈈管这事真实与否美国统计学家哈罗德?霍特林(Harold Hotelling)的回忆录里清楚地记载,霍特林在20世纪30年代后期要与“学生”会谈安排是秘密的,帶有间谍小说的各种情节这表明“学生”身份的真正确认,对吉尼斯公司仍是个秘密“学生”在《生物统计》发表的论文涉及理论和實践的尖端问题,戈塞特将非常实际的问题带入有难度的公式又把结论带回现实实践,后来者便照此办理

尽管有很高的成就,戈塞特仍是个谦逊的人在他的信中,人们经常可以发现这样的字眼:“我的研究只是提供了粗浅的想法”;或者当他的某些发现被给予过多嘚荣誉,他会说:“费歇尔实际上已经能完成了整个数学结构”在人们的记忆中,戈塞特是一个和善的、体贴的同事很在意别人的情感。他去世的时候61岁离开了他的妻子马乔里(Majory)(一个精力充沛的运动员,曾经担任英国女子曲棍球队的队长)、一个儿子、两个女儿囷一个孙子当时他的父母还健在。

如果不算别的所有的科学家都受惠于戈塞特的一篇短文,该文的题目是“平均数的可能误差”(The Probable Error of the Meam)1908年发表在《生物统计》上。是费歇尔点出这篇杰出论文的一般性意义对戈塞特来说,有一个特定的问题需要解决一到晚上,他就习慣性地带着耐心和小心投入于这个问题发现了结论,他就用其它资料来检查重新验证他的结果,努力去确认是否遗漏了什么细微的差別考虑他必须设定哪些假设,并一再重复计算自己的发现他提前采用了现代计算机基础上才出现的蒙特卡罗技术(Monte Carlo techniques),这是一种一再模擬的数学模型,以确定相关数据的概率分布然而,当时他没有计算机只能不辞辛苦地加总数据,从上百个样本中计算平均数并绘制所得出频率的图表,所有这些都靠手工完成

戈塞特所专注的特定问题是小样本(small sample)问题。K?皮尔逊计算了某一分布的4个参数这是在单一樣本就积累了上千个测量数据的基础上完成的,因为使用了大样本他设定所得到的参数估计是正确的。费歇尔要证明他的错误根据戈塞特的经验,科学家很少能三八线以有如此大的样本更为典型的实验通常能够看到10到20个观测数据,他还理解到这种现象在所有的学科Φ都很普遍。在一封给K?皮尔逊的信中他写道:如果我是你遇到的用小样本工作的唯一一人,那你太特异了在这个题目上我与斯特拉顿(Stratton)(剑桥大学的一位研究员)相伴,他曾经用4个样本来做说明

K?皮尔逊所有的工作都假定:样本足够大,以至于确定参数可以没有误差戈塞特设问:如果是小样本会怎么样?我们将如何处理自己的计算中肯定会出现的随机误差

晚间,戈塞特坐在自己的餐桌旁取出一尛组数据,算出平均值和标准差估计值再将二者相除,并将结果绘在图纸上他发现这个比率与K?皮尔逊的四个参数相关,并与K?皮尔逊的偏斜分布系列中的某一分布相配他的伟大发现在于:你不必知道原始分布的4个参数的确切值。前两个参数估计值的比率有一个可以制表嘚概率分布不管数据从哪里来,或者标准差的真实值是多少计算这两个样本估计值的比率,你就可以得到一个已知的分布

正如弗雷德里克?莫斯特勒(Frederick Mosteller)和约翰?图基(John Tukey)所指出的那样,没有这一发现统计分析注定要使用无限次的回归,没有“学生”的t检验 (这是该发現后来的称谓)分析者将不得不估计观测数据的4个参数,再估计这4个参数估计值的4个参数接着估计4个新估计值的4个参数……这样继续丅去,没有机会得到最终的结果戈塞特表明,分析者可以在第一步就停止这种估计

戈塞特的工作有一个基本的假设,即原始测量值服從正态分布多年以来,科学家使用着“学生”的t检验许多人渐渐相信,并不需要这项假设他们经常发现:不管原始测量是否服从正態分布,“学生”的t检验都有相同的分布在1967年,斯坦福大学(Stanford University)的布拉德利?埃弗龙(Bradley Efron)证明了这一点更确切地说,他发现了不需要戈塞特假设的一般条件

随着“学生”t检验的发展,我们不知不觉地习惯于统计分布理论的应用这一理论在科学界广为流传,相伴而来的昰更深层次的哲学问题这就是我们所说的“假设检验”(hypothesis tests)或“显著性检验”(significance tests)的使用。后面我们会剖析这个问题现在我们只想强調:“学生”提供了几乎每个人都使用的科学工具,尽管没有多少人真正理解它

与此同时,“可爱的戈塞特先生”成了两个长期不和的超级天才——K?皮尔逊和费歇尔之间的中间人尽管他经常对K?皮尔逊抱怨他看不懂费歇尔写给他的东西,他还是保持了与两个人的友谊他與费歇尔的友谊开始于费氏在剑桥大学读本科的时候,那是在1912年费歇尔刚刚成为剑桥大学数学学位甲等及格者(最高的数学荣誉),他嘚天文学导师 介绍两个人认识当时费歇尔正在研究一个天文学问题,他写了一篇论文在其中他重新发现“学生”在1908年得到的结果。年輕的费歇尔显然不大知晓以前戈塞特所做的工作

在费歇尔给戈塞特看的这篇论文中,有一个小错误被戈塞特指了出来当戈塞特回家的時候,他发现费歇尔写的两大页数学论证正等着他这个年轻人把自己原先的工作又做了一遍,并加以扩充还批评了戈塞特所犯的一个錯误。戈塞特在给K?皮尔逊的信中写道:“附上一封信它证明了我关于“学生”t检验的频率分布公式,您是否介意替我看一下即使我可鉯理解,超过三维空间我还是觉着不自在”费歇尔用多维几何证明了戈塞特的成果。

在这封信中戈塞特说明了自己的如何到剑桥去与萠友会面,而这个朋友恰巧在冈维尔与凯厄斯学院(Gonville and Caius College)是费歇尔的导师,他如何被介绍给这位22岁的学生他接着写道:“费歇尔这小子寫了一篇论文,提出概率的新标准或诸如此类的东西看起来不错,但就我所能理解的是一种不切实际且不大管用的认识事物方式。”

茬描述了他在剑桥与费歇尔的讨论后戈塞特写道:

对我们之间的讨论,他的回复是两大页书写纸上面用最深的墨水写满了他所证明的數学(跟着是一组数学公式)……我看不大懂这些内容,回复他说等我闲下来时准备研究它实际上我去湖区时随身带着它,可弄丢了

現在他将这封信寄给我,我觉得如果它还可以的话您也许愿意发表这个证明,它是这样的完美和数学化对某些人也许有吸引力。

K?皮尔遜在《生物统计》上发表了费歇尔的短文就这样,20世纪最伟大的天才之一面世了3年以后,经过了一连串俯就的信件往来K?皮尔逊发表叻费歇尔的第二篇论文,但事先约定论文须以这种形式出现:它不过是对K?皮尔逊合作者之一所做工作的细微补充K?皮尔逊再也没有允许他嘚期刊发表费歇尔的论文。费歇尔继续在K?皮尔逊许多最感自豪的成就中挑毛病而K?皮尔逊则在稍后几期的《生物统计》中,以社论的方式點出“费歇尔先生”或“费歇尔先生的学生”在其它期刊所发表论文中的错误这些都将是下一章介绍的内容,戈塞特会在以后几章中的某些地方再度出现作为一个和蔼可亲的良师益友,他帮助年轻男女进入统计分布的新世界他的许多学生和合作者都对新数学做出了重偠贡献。尽管他本人谦逊地表示异议但戈塞特的确做出了许多影响深远的贡献。

第4章 在“垃圾堆”中寻觅

1919年春天费歇尔29岁,他带着妻孓、三个孩子和小姨子搬到了伦敦北部的一间旧农舍里,那儿靠近罗森斯特农业实验站(the Rothamsted Agricultural Experimental Station)从许多方面来看,费歇尔的人生在别人眼裏是失败的他在孤单和多病的童年中长大,并有严重的视力损伤为了保护他的近视眼,医生禁止他在人工灯光下阅读但他很小就接觸了数学和天文学,在6岁时他迷上了天文学七八岁时,他就跑去听由著名天文学家罗伯特?鲍尔(Robert Ball)爵士主讲的通俗讲座

)录取,在那裏他的数学是出众的由于不允许他使用电灯,他的数学导师在晚上教他时不用铅笔、纸和任何其它视觉辅助品。久而久之费歇尔发展了一种很强的几何直觉能力。在后来的岁月中他那非凡的几何洞察力,使他得以解决许多数理统计中的难题这种洞察力对他而言是那么明显,从而导致他经常不能被别人所理解在他看来是显而易见的事情,别的数学家往往要花几个月甚至几年的时间去证明

他于1909年進入了剑桥,在1912年获得了数学学位甲等及格者的头衔对剑桥学生来说,这是一个很高的荣誉要得到它必须通过一系列极为困难的口头囷笔头数学考试,一般一年只会有一两个学生成功有的年份甚至没有人能得到这种头衔。当费歇尔还是本科生时他就发表了他的第一篇科学论文,其中复杂的迭代公式(iterative formulas)被转换成多维的几何空间形式在这篇论文中,那些在人们眼里一直特别复杂的数学计算公式被转換成简单的几何形式毕业后他花了一年时间,研究统计力学(statistical mechanics)和量子理论(quantum theory)到1913年,统计革命已经进入了物理学而新观念已经较為系统地进入这两个领域,并成为正式的大学课程

费歇尔的第一份工作是在投资公司的统计室,其后他突然离开那里到加拿大去从事農场工作。后来又在第一次世界大战开始时突然离开农场回到了英格兰。虽然他被批准入伍但他那很差的视力使他免于军事服务。战爭年代他在许多公共学校教授过数学,但每一次的经历都比上一次更糟他对学生们没耐心,因为他们都是不能理解在他看来很明显的倳情

前一章提到,当费歇尔还是本科生时就在《生物统计》发表了一篇短文。这使得费歇尔有机会见到K?皮尔逊K?皮尔逊将一个困难的問题介绍给费歇尔:确定高尔顿相关系数的统计分布。费歇尔对此作了思考用几何公式来处理它,不到一个星期就得出了完整的答案怹把结果交给K?皮尔逊,想在《生物统计》上发表但K?皮尔逊不能理解其中的数学,把它转给了戈塞特而戈塞特在理解上也有困难。K?皮尔遜知道如何就特定的案例得到问题的部分结论他的方法涉及到大量的计算工作,于是便对生物统计实验室的工人做出安排让他们去计算出这些明确的答案。在每一个案例中所得到的答案都更加支持费歇尔的一般性结论。但K?皮尔逊仍然不发表费歇尔的论文他要费歇尔莋出修改,并降低费歇尔工作的一般性K?皮尔逊将费歇尔的东西扣了一年多,同时让他的助手(计算员)计算一个庞大的扩展的表以表奣参数值的分布。最后他发表了费歇尔的成果,但相对于K?皮尔逊及其助手展示分布表的大块文章来说费氏的论文只是作为一个脚注。對不经意的读者来说这样一个结果意味着:K?皮尔逊和他的合作者所做的工作更为重要,那里有大量的数据计算而费歇尔的数学处理只昰一个附属物。

Research)上而所有这些期刊与数学研究通常都不怎么搭界。据知情者说费歇尔作出这样的选择是因为K?皮尔逊和他的朋友们成功地将费歇尔逐出数学和统计研究的主流。根据其它人的说法K?皮尔逊吹毛求疵的态度让费歇尔感到自身受到漠视,同时他也没能够让類似的论文在《皇家统计学会期刊》(the Journal of the Royal Statistical Society,该领域另一份顶尖的期刊)上发表于是他转而利用其它期刊,有时甚至付钱请他们发表自己的論文

费歇尔这个“法西斯”!

费歇尔早期论文有一些是高度数学化的。他论述相关系数的文章也就是K?皮尔逊最后同意发表的那篇,就充满了数学符号一个标准页里有一半甚至更多篇幅都是数学公式。但也有一些论文里面压根就没有数学其中的一篇,他讨论了用达尔攵的随机适应理论(Darwin’s theory of random adaptation)来说明最复杂的解剖学结构的方法在另一篇论文中,他探讨了性别选择进化的问题费歇尔在1917年加入了优生学運动(the eugenics movement),在《优生学评论》(the Eugenics Review)上发表了一篇社论呼吁转变国民政策“以增加职业界人士和高技能工匠的生育率”,并抵制下层社会嘚生育率他在这篇文章中质疑政府为贫民提供福利的政策,认为这会鼓励他们多生育并将基因传给下一代,而中产阶级对经济安全的關注会导致他们推迟结婚并节制生育。费歇尔担心对整个国家来说最终的结果是:为后代选择了“最差的”而不是选择“较好的”基洇。优生学问题是通过有选择的系列来改进人类基因库这成为费歇尔的主要政治观念。在第二次世界大战期间他被错误地指责为法西斯主义者,并被逐出了与战事有关的工作

费歇尔的政治见解与K?皮尔逊不同,后者钟情于社会主义和马克思主义他同情被压迫者,并喜歡挑战保守的优等阶层但K?皮尔逊的政治观念对他的科学研究没有什么影响。费歇尔关注优生学这导致他将相当大的精力投入到遗传学嘚数学研究中。当时有一种新观念认为某种植物或动物的特性可能来自一个单个基因,这以两种形式中的一个就可表现出来从这种观念出发,费歇尔将格雷戈尔?门德尔 的工作大大地推进了他指出如何估计两个相信基因的彼此影响。

存在着控制生命性质的基因这一观念是科学中广义统计革命的一个部分。我们观察植物和动物的我专业上称之为“表型”(phenotypes)。但我们假设这些表形是基因之间交互作用嘚结果而这些基因的交互作用又具有不同的概率。我们寻求以这些主要的和不可见的基因方式来描述“表型”的分布。在20世纪后期苼物学家识别出这些基因,以确定它们让细胞制造什么样的蛋白质我们说起这类事就像真的一样,但我们所观察到的还只是概率的分布我们所说的基因,即DNA链正是来自于这些分布。

我们这本书说的是总的统计革命费歇尔在这场革命中起了很重要的作用。他对自己作為遗传学家所取得的成就感到自豪他的一半以上的成果是与遗传学有关的。现在我们不再把费歇尔当作一个遗传学家,而主要看他在┅般统计技术和观念方面取得的进展这些观念的萌芽在他的早期作品中就可以发现,但这些观念的全面发展却是他在工作期间的事,那发生在20世纪20年代到30年代

《研究工作者的统计方法》

虽然费歇尔在这段时间被数学界忽视了,但他所发表的论文和著作极大地影响了农學和生物学界科学家的工作在1925年,《研究工作者的统计方法》(Statistical Methods for Research Workers)第一版面世之后,这本书仅英文版就出了14个此外,还有法文、德攵、意大利文、西班牙文和俄文的译本

《研究工作者的统计方法》与这之前的数学著作不同,通常数学著作都有许多定理及其证明并展开抽象的概念将之一般化,与其它抽象概念联系如果说这类书中有什么应用的话,也只是放在完整的数学描述和证明之后《研究工莋者的统计方法》从如何利用数据制图及如何读图开始,第3页就出现了第一个实例展示一个婴儿生命头13周每一周的重量,这个婴儿就是費歇尔自己的头生子——乔治(George)接下来的各章描述如何分析数据:费歇尔给出一些公式,列举一些实例解读这些例子的结果,然后洅转到其它公式书中没有对公式的数学推导和证明,却带有详细的技术说明并交待如何在机械计算器上应用它们。

尽管或者说正是洇为缺少理论数学,这本书迅速地被科学界采用它顺应了现实需求,可以把这本书直接交给只受过有限的数学教育的实验室的技工让怹们自己应用。使用这本书的科学家认为费歇尔的主张是正确的而评论这本书的数学家则对书中未加证明的大胆论述持怀疑态度,许多囚弄不明白他是怎么得出这些结论的

第二次世界大战期间,瑞典的数学家哈拉尔德?克拉美(Harald Cramér)被战争隔绝于国际科学界外他花了相當多的时间来费歇尔的这本书和所发表的论文,补充了原来缺失的证明步骤并推导出原来没有的证明。1945年克拉美出版了一本书,书名叫作《统计的数学方法》(Mathematical Methods of Statistics)对费歇尔的许多著述给出了正式的证明。不过克拉美只能对这位多产天才的论述进行选择性的证明,费歇尔的很多著述在克拉美的书中都没有包括进去克拉美的书被用来教授新一代数学家和统计学家,他把费歇尔著述的“修注”编写成一個标准范式在20世纪70年代,耶鲁大学(Yale University)的L?J?萨维奇(Savage)阅读了费歇尔最初的论文发现里面有很多东西都被克拉美遗漏了。他还惊讶地看箌费歇尔对后人的工作早有预见,并且已经解决了在20世纪70年代被认为还没有解决的问题

但所有这些对1919年的费歇尔来说都是未来的事情,当时他正打算放弃不成功的学校老师职业实际上他刚刚完成一项里程碑意义的工作:将高尔顿的相关系数与门德尔遗传学的基因理论結合在一起。但皇家统计学会和K?皮尔逊的《生物统计》都拒绝刊登这篇论文费歇尔听说爱丁堡皇家学会正在寻找适于他们的《交流》(Transaction)上发表的论文,但期望由作者本人支付印刷成本就这样,费歇尔自费将自己第二项伟大的成果交给这样一个当时并不起眼的期刊发表

在当时,K?皮尔逊仍对年轻的费歇尔印象很深他想聘请费歇尔到高尔顿生物统计实验室担任首席统计师,两个人之间的通讯来往是诚恳嘚但对费歇尔来说,K?皮尔逊显然是一个主观意志很强并有支配欲的人所谓首席统计师,充其量不过是在K?皮尔逊的指令下从事细节的計算工作。

罗森斯特实验站与农业实验

Russell)爵士也与费歇尔取得了联系这个实验站是由一个英国的肥料制造商在一个旧农场里建立的。这個旧农场曾属于该肥料公司原来的主人农场的粘土并不特别适于种植什么作物,但主人发现了如何将石头磨碎与酸混合生产一种被称莋“过磷酸石灰”(Super-Phosphate)的肥料的方法。从过磷酸石灰生产得到的利润用来建立一个实验站以开发新的人工肥料。90年下来这个站进行了許多实验,测试无机盐肥料与不同品第的小麦、黑麦、大麦和马铃薯的不同组合这积累了一大仓库的数据,有雨量和温度准确的日记录、施肥追肥和土壤测量的周记录、收成的年度记录所有这些都保存在皮面笔记本中。大多数这样的实验没有产生一致的结果但这些笔記本被小心地存放在实验站的档案室中。

罗素先生看着积累下来这么多资料想到也许应该雇个人来看看里边有什么东西,对这些资料进荇一次统计整理他四处询问,有的人推荐了费歇尔罗素跟费歇尔签了一年的合同,给出了1000英磅的酬劳他只能出这么多了,而且不能保证第二年续聘

费歇尔接受了罗素的聘任,带着妻子、小姨子和三个孩子来到了伦敦北部的农区他们租下了实验站旁边的一间农舍,妻子和小姨子打算在那里种种菜园操持家务,而费歇尔则空上靴子穿行在农业实验站的田间和90年的数据中,做起他后来称之为“在垃圾堆中寻觅”的工作

在我担任生物统计学家不久,一次去康涅狄格大学与休?史密斯教授讨论我所遇到的问题他给了我一份礼物,那是┅篇论文的复印件论文有53页长,题目是《作物收成变动研究Ⅲ:降雨量对罗森斯特小麦收成的影响》(Studies in Crop Variation. Ⅲ. The Influence of Rainfall on the Yield of Wheat at Rothamted)这是一组杰出的数学论文嘚第三篇,其第一篇1921年发表在《农业科学期刊》第11郑上产量变化是实验科学家的大忌,但却是统计方法研究的基本素材在现代科学文獻中,“变动”(variation)这个词已经很少被用到了它已经被其它术语代替,比方说“方差”(variance)这个术语与特定的参数分布有关。“变动”对一般的科学用途来说过于含混但对费歇尔而言,却是合适的作物产量在年份之间、地块之间的这种变动,正是作者研究的起点借此,他可以推导出新的分析

大多数科学论文在结尾都有参考文献目录,一个长长的单子以确认对所讨论问题曾经有过建树的论文。費歇尔系列论文的第一篇却只有三篇参考文献:其一指明了1907年一次不成功的尝试,打算探讨降雨量与小麦生长的相关性;其二1909年以德攵写成的,描述了一种计算复杂数学公式最小值的方法;其三是由K?皮尔逊发表的一组数表。先前没有什么论文涉足过这一杰出研究系列所涵盖的题目《作物收成变动研究》是自成一格的,署名的地方写着:罗纳德?A?费歇尔文学硕士,罗森斯特农业实验站统计实验室哈盆登(Harpenden)。

1950年出版商约翰?威利(John Wiley)征求费歇尔的意见,看他是否愿意从所发表的论文中挑选一些最重要的好单独形成一本文集。后来這本文集的名称叫做《对数理统计的贡献》(Contributions to Mathematical Statistics)一打开书,就是费歇尔当时的照片他一头白发,双唇紧闭领带稍微有点斜,白胡子梳理得不大好书中标明费歇尔当时在剑桥大学遗传学系工作。《作物收成变动研究Ⅰ》是该文集中的第一篇文章作者在文章前面加了┅个序言,以明确该文的重要性及其在他全部成果中的地位:

早期在罗森斯特的工作中作者对研究站多年积累下来的大量观察数据,如忝气、收成、收成分析等给予了极大的关注。气象记录在多大程度上能够提供来年收成的预测对于这类问题,上述数据是有独特价值嘚现在这篇文章是用于此目的的系列研究的首篇。

这个系列研究最多有6篇论文《作物收成变动研究Ⅱ》发表在1923年,而史密斯先生给我嘚那篇标号为“Ⅲ”在1924年问世。《作物收成变动研究Ⅳ》则在1929年发表标号为“Ⅴ”的论文没有出现在费歇尔的文集中。在科学史上还佷少有这种事件:标题那么不起眼而其内容却如此重要。在这些论文中费歇尔开发了用于数据分析的原创性工具,建立了这些工具的數学基础并描述了如何将它们应用到其它领域中去,包括如何应用到他在罗森斯特所遇到的“垃圾堆”上这些论文表现了令人眩目的原创性,充满了奇妙的内涵这足够理论家们在20世纪余下来的日子里忙乎的,也许那之后还会继续激发更多的研究

《作物收成变动研究Ⅰ》

费歇尔系列研究的后两篇文章是有共同作者的,但《作物收成变动研究Ⅰ》却是他独立完成的那需要大量的计算工作。他的唯一后援是一台名字叫“百万富翁”的计算器那是一台原始的带有手摇曲柄的机械计算器。如果要算乘法比方说算3342乘27,先要将转盘放在个位上,设定3342这个数字摇动曲柄7次;再将转盘放在十位数上,设定3342这个数摇动曲柄2次,计算方告结束这架机械叫“百万富翁”,因为它的轉盘大得足够容纳以百万计的数字

为了体会到这篇论文所耗费的气力,我们来考虑一下《作物收成变动研究Ⅰ》中第123页的表7.如果完成一個多位数乘法需要1分钟我估计费歇尔需要大概185个小时来完成这张表。这篇论文中有15张复杂程度相当的数表还有4张更为复杂的图。只考慮体力劳动本身准备这些图表至少需要耗去费歇尔8个月的时间,而且每天得工作12个小时!这还不包括其它工作所花费的时间比方说:思考理论数学问题、整理数据、设计分析框架、修正不可避免的错误等等。

高尔顿回归思想的一般化

回顾一下高尔顿所发现的“向平均数囙归”他试图找到一个数学公式,将随机事件彼此联系在一起费歇尔接过高尔顿“回归”(regression)这个词,建立了某个给定地块小麦收成與年份之间的一般数学关系这个相当复杂分布的参数描述了小麦产量产业化的不同方面。要深入理解费歇尔的数学式你得有坚实的微積分基础,得对概率分布理论有好的辨别力还要对多维几何学有感觉,但理解他的结论并不那么难

他将小麦产量的时间趋势分成几个蔀分,一个是由于土地退化导致产量稳定地整体性地下降;另一个是长期的缓慢的变化每个阶段都要花几年时间;第三个是一组更快的迻动变化,考虑的是气候在不同年份的差异自从费歇尔开创性的尝试,时间序列的统计分析在他的思想和方法的基础上建立了起来,現在我们有了计算机可以用更巧妙的演算法进行大规模的计算,但基本的思想和方法仍然未变给定一组随时间波动的数据,我们可以將之分解为不同来源导致的结果时间序列分析用来检验:美国太平洋海岸拍激的海浪是不是印度洋风暴的起因。这些方法使研究人员能夠区分地下核爆破与地震能够精确地为病理学上的心中节律定位,能够确定环境管制对空气质量的影响其应用范围还在继续扩大。

农場有一个名称叫“宽田硬”(Broadbalk)的地块在分析其粮食收成时,费歇尔感到有些困惑这块地只用了动物粪肥,所以不同年份收成的变动與人工肥料无关当土壤得自动物粪肥的养分逐渐耗尽,地力退化的长期因素就可以得到解释同时费歇尔还可以确定不同年份降雨类型鈈同所带来的影响。那么什么是缓慢变化的原因呢?从缓慢变化的形态可以看出在1876年产量开始下降,比从另两个因素所能预计的程度還要大这种下降在1880年速度更快了;这种情形在1894年开始改善,持续到1901年而后又是下降。

费歇尔发现了带有同样缓慢变化的另一种记录鈈过形态是相反的,那是关于麦田里野草的1876年后,野草蔓延得越发严重而到了1894年突然开始消失,只是在1901年又开始茂盛起来

后来发现,雇用小男孩到地里去拔草在1876年以前是通告的做法。在英格兰的大地上下午经常可以看到瘦弱的小男孩穿行于田间,不停地拔草到叻1876年,教育法(the Education Act)使得上学带有强制性田间小男孩的大部队开始不见了。而1880年第二部教育法通过对致使孩子辍学的家长施以罚款,田間剩下的男孩也离开了没有了拔草的小手,那些野草就又茂盛起来了

那么,在1894年又是什么事情发生使得趋势逆转了呢?在罗森斯特附近有一所女子寄宿学校新校长约翰?劳斯(John Lawes)相信,充满活力的户外活动有助于他那些年轻的被托管人的健康他和实验站的头儿一起咹排,让这些年轻姑娘在周六和傍晚出门到地里去拔草。1901年劳斯去世后这些小姑娘恢复久坐的习惯,多是在户内活动野草也就又回箌了“宽田埂”。

第二篇研究收成变动的论文也是发表在《农业科学期刊》上时间是1923年。这篇论文并不处理罗森斯特过去实验所积累下來的数据取而代之的是新实验:一组不同的人工肥料组合对不同品种马铃薯的影响。费歇尔到了罗森斯特后实验有了明显的改善。不洅将某种实验的人工肥料用于整个农场现在他们把土地划成小的地块,每个地块进一步区分作物的行地块中的每一行都给予不同的处悝。

基本的想法是简单的之所以简单,那是因为一经费歇尔提出后它就简单了,但这之前却没有人想到它任何人观察土地上的作物時,都会很明显地感到有的地块土质好于其它地块在某些角落,作物长得又高又密而其它角落,作物则又细又稀这可能是由于排水方式、土壤类型的改变、未知养分的出现、多年生野草的抵制,或者一些其它未能预见的原因如果农业科学家要测试两种人工肥料间的區别,他可以将一种施于地块的其它角但这会将肥料的效应与土壤或者排水等的效应混淆在一起。如果试验在相同的地块不同的年份进荇又会把肥料的效应与气候变化的效应相混淆。

如果同一年里在相同作物上进行肥料的比较,土壤的差别就会减到最低程度但他们仍然存在,因为所处理的作物不会有绝对相同的土壤条件如果我们使用足够多的成对比较,在某种意义上土壤差异所造成的区别就会被平均掉。假定我们要比较两种肥料其中一种磷肥的含量是另一种的两倍,我们将地分成小块每一块有两行作物。我们总是将磷肥多嘚施于北边这行南边的那行则施磷肥少的。做到这里反对的声音就会出来了。如果土壤的肥力梯度(fertility gradient)由北向南那么北边这行的土質就会比南边那行稍好一点,土壤差异的影响就不会被平均掉

别急!我们正要做调整,在第一个地块我们把磷肥多的施在北边,到了苐二地块它将被施在南边,就这样来回调整我的读者中可能有的已经画出地块的草图,将施磷肥较多的行标上了记号它会指出,如果肥力梯度从西北向东南施以额外的磷肥的行将总是比别的行土质好。也会有人指出如果肥力梯度从东北向西南,结论正好相反好啦,另一个读者发问了到底谁对了呢?肥力梯度究竟如何分布我们的答案只能是:天晓得!肥力梯度这个概念是抽象的,当我们选择從北到南或从东到西时肥力的真正形态可能以非常复杂的方式上下变动。

我可以想象得出来当费歇尔提出小地块定型处理将得到更为細心的实验时,罗森斯特的科学家们之间也会有这样的讨论我也可以想象,当讨论集中到如何确定土地的肥力梯度时费歇尔笑咪咪地唑在一边,听任他们卷入复杂的争论他已经考虑过这些问题,并有了简明的答案了解他的人这样描绘费歇尔:即使是争论触及到他,怹仍是静静地坐在那里吞云吐雾,等等容他给出答案的时机终于,他拿开嘴上的烟斗说道:“用随机的方法吧!”

的确简单,科学镓以随机的方式设计同一地块里不同行家作物的处理由于随机处理没有固定模式,任何可能的肥力梯度结构都在平均意义上被抵消掉了费歇尔猛地起身,兴奋地在黑板上写了起来一行又一行数学符号,手臂在数学公式间挥来挥去抵消公式两端相同的因子,最后出现嘚可能是生物科学中最为重要的工具了在精心设计的科学实验中,如何分解各种不同处理的效应费歇尔将这个方法称作“方差分析”(ananlysis of variance)。在《作物收成变动研究Ⅱ》中方差分析第一次面世。

《研究工作者的统计方法》列出了方差分析某些例子的计算公式但在这篇論文中,他给出了公式的数学推导不过推导过程还没有详尽到学院派数学家满意的程度。所展示的代数式是为了这样一种特殊情形:比較三种类型的人工肥料、十种不同品种的马铃薯和四个地块如果比较两种人工肥料、五种马铃薯,或者六种人工肥料、一种马铃薯则需要几个小时的艰苦工作,以调整出新的代数式至于搞出适合所有情形的一般公式,就需要更多的数学工作了恐怕得出几头汗水吧!當然,费歇尔知道一般公式对他来说,那是如此的明显以至于没有必要展示它们。

难怪与费歇尔同时代的人对这个年轻人的成果感到困惑!

《作物收成变动研究Ⅳ》介绍了费歇尔年说的“协方差分析”(analysis of covariance)这是一种因素分解的方法,存在着并非由实验设计而来的条件它们的效应是可以测量的。当时某医学期刊上发表了一篇论文描写了针对性别和体重所做调整的治疗效应,用的实际上就是费歇尔在Ⅳ号论文中开创的方法Ⅳ号论文提出了实验设计的精华,Ⅲ号论文即史密斯教授推荐给我的那篇,将在本章后边一点儿再讨论

1922年,費歇尔终于第一次在《皇家统计学会期刊》上发表了他的论文那是一篇短文,适度地指出了K?皮尔逊公式中的一个错误许多年后谈到这篇论文,费歇尔写道:

这个短文尽管带着稚气,不那么完整但却是破冰之举。它是带试验性质的并且零零碎碎的,有的读者会因此洏气恼可他们不要忘了,它不得不在批判者中找到发表的渠道对这些批判者来说,摆在第一位的就是绝不相信K?皮尔逊的成果需要改正即使是承认了这一点,他们也觉得这事轮不到别的人

1924年,费歇尔得以在《皇家统计学会期刊》发表别一篇论文更长一些,更为一般囮后来在一份经济学期刊上,他对这篇论文及相关的另一篇做了如下的评论:“(这两篇论文)要借助于‘自由度’(degrees of freedom)这个新概念來调和由不同作者观测到的有差异和表现异常的结果……”

自由度这个新概念是费歇尔的发明,这直接得益于他的几何洞察力和将数学问題置于多维几何空间的能力所谓“异常的结果”出现在一本不大引人注目的书里,那是一个名叫T?L?凯利(T. L. Kelley)的人在纽约出版的凯利发现囿一些数据用K?皮尔逊的公式似乎不能得出正确的答案。看来只有费歇尔注意到了凯利的这本书凯利的异常结果只是作为一个跳板,借此費歇尔彻底推翻了K?皮尔逊另一个最引以为自豪的成就

《作物收成变动研究Ⅲ》

现在就气候对农作物影响而言我们知之甚少,尽管它对一個大的民族产业如此重要课题的难解,部分地可以归于问题本身固有的复杂性还有……缺少在实验或者自然产业条件下所取得的数据……

按下来就是长达53页的精彩论述,其中包含着现代统计方法的基础任何学术领域,包括经济学、医学、化学、计算机科学、社会学、忝文学、药学只要是需要建立大量相互关联原因的相关效应,就需要应用这些方法论文中包含了特别精巧的计算方法(回想一下费歇爾只有那台手动的“百万富翁”用来工作),及如何为统计分析组织数据的良策我将永远感激史密斯教授,他把这篇文章推荐给我每佽我读起它都会有新的收获。

《费歇尔文集》有五卷本第1卷以1924年的论文作为结尾,靠近卷尾的地方有一张费歇尔34岁时的照片,他双手茭叉在胸前胡子修理得挺整齐的,眼镜也没有以前照片中的那么厚神情安详而自信。在这之前的5年里它在罗森斯特建立了出众的统計部门,雇用了像弗兰克?耶茨(Frank Yates)那样的合作者在费歇尔的鼓励下,耶茨将继续对统计分析的理论和实践做出贡献除了少数例外,K?皮爾逊的学生大多默默无闻当他们在生物统计实验室工作的时候,只能协助K?皮尔逊而不能超越他;反观费歇尔他的多数学生响应了所得箌的鼓励,独辟蹊径赢得了辉煌。

1947年英国广播公司(BBC)广播网邀请费歇尔做一个系列讨论,阐述科学的本质与科学研究在其中一讲嘚开头,费歇尔这样说道:

科学生涯从某些方面看是奇异的科学存在的理由,是要增加对自然知识的认知有时候,虽然会有这种认知嘚增加但是这个过程不是顺利的,并且是令人感到痛苦的理由是:人们不可避免地会发现以前所得出的观点,至少在一定程度上明顯是过时的或者错误的。我想大多数人可以认识到这一点如果已经教授了10年左右的东西需要修正,他们会以下面的态度加以接受但有┅些人绝对不能接受,就好像打击了他们的自尊心甚至是对他们一直把持的私有领地的侵犯。他们必然做得像知更鸟和苍头燕雀寻亲残忍在春天里我们可以看到,当自己的小巢被冒犯里它们所表现出的愤怒反应。我并不认为能对此做什么补救这是科学过程中所固有嘚特性。但年轻的科学家应该得到提醒和指导当他们奉献出珍宝去丰富人类的宝库时,必然有人会拒绝他或排挤他

第6章 “百年不遇的洪水”

有什么能比百年不遇的灌水更让人无法预料的呢?洪水奔腾肆虐泛滥成灾,惨烈至极确实是百年难得一遇。谁能为这样的突发倳件制定防范计划呢像这样罕见的洪水,我们又怎么能估计其洪峰会高达多少呢如果说现代科学有统计模型能用来处理观测数据的分咘,那么对这种未曾发生过,或者即便发生也是百年才发生一次的大洪灾,又该如何用统计模型来分析呢伦纳德?亨利?凯莱布?蒂皮特(Leonard Henry

L?H?C?蒂皮特1902年出生在伦敦,并在伦敦的帝国学院(Imperial College)读物理学1923年他从帝国学院毕业。蒂皮特曾说过他之所以被物理学所吸引,是因为物悝学对“精确测量的坚持……和当时科学辩论的那种学院式方法。回顾自己年轻时的激情他继续说:“我们通常是把一个假设视为对戓错,并把至关重要的实验当作加深认识的主要手段”当他有机会做实验时,他发现实验的结果与理论预测的结果从未有过精确的一致依据他自己的亲身体验,他说:“我发现最好是去改进抽样技术(这里他指的是统计分布)而不是丢弃理论。”蒂皮特认识到他如此钟爱的理论所提供的信息仅}

我要回帖

更多关于 三攻一受同时做文 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信