举例说明一般规律和统计规律与一般规律的不同

您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
【2017年整理】第二讲 系统状态描述与统计规律性.doc 26页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
需要金币:100 &&
你可能关注的文档:
··········
··········
第二讲系统状态描述与统计规律性讲授内容:教科书§1.2-4学时:6.5教学方法:结合课件中的文字、画图和简单动画进行讲授;通过习题课师生互动突破难点,共同解决运算技巧问题。教学目的:1使学生初步掌握系统宏观状态与微观状态描述方法,熟悉近独立粒子系在个体量子态中的占据方式,熟记对应关系并熟练计算态密度;2初步认识统计规律性的特点、统计平衡条件和两种统计平均值。教学重点:对应关系与态密度。教学难点:相空间中等能面所包围的“相体积”的计算。教学过程:(课件标题字幕)一系统宏观状态的描述:(45分钟)(字幕)1宏观系统的分类:(字幕)为了今后研究和叙述的方便,我们将宏观系统从不同的侧面加以区分,简单介绍它们的特征和名称。1.1开系、闭系和孤立系:(字幕)(简单动画)这是根据系统与外界的关系来区分的。宏观系统多数都有可能和外界进行能量和物质的交换,属于开放系统,简称为开系。在特殊界面限制下,有些宏观系统和外界只可能交换能量而不能交换物质,称为封闭系统,简称闭系。如果系统和外界既不能交换能量也不能交换物质,完全不受外界影响,则称该系统为孤立系。实际上长时间的绝对封闭或孤立是不可能的,闭系和孤立系应该理解为某些真实系统的近似写照。1.2单元系和多元系:(字幕)(画图)这是从系统组成成份的多少来区分的。我们把系统中的每一种化学成份称为一个组元。只有一个组元的系统称为单元系。由两个或更多的组元组成的系统称为多元系,它们又可以根据系统内组元的数目分别称为二元系、三元系等等,但这只是在比较稳定的情况下才可以具体指出数目,在化学反应过程中组元数目是有可能变化的。1.2均匀系和非均匀系:(字幕)整个系统在物理性质、化学组成成分和性质上都均匀一致的称为均匀系,否则称为非均匀系。1.4单相系和复相系:(字幕)根据不同的表观特征、内在结构和性质(如物态、晶格结构、磁性、导电性、序参量等等),可以把宏观系统区分为许多不同的相。宏观系统内仅有一相的称为单相系。系统内有两相以上共存的称为复相系。复相系又可按共存相数分别称为二相系、三相系等等。例如,由冰、水和水蒸气组成的系统就是一个三相系。复相系各相之间有明显的界面,跨越界面时,某些性质将发生不连续变化。均匀系肯定是单相系,但单相系不一定都是均匀系,重力场中的高大气柱虽是单相系但密度不均匀就是一例。仅当外场和器壁的作用可以忽略而系统又处于平衡时,一相之内才是均匀的。根据以上的介绍不难看出,在各类宏观系统中,单元单相孤立系是最简单的系统,多元复相开系则是比较复杂的。前者只需研究从非平衡态趋向平衡的问题,而后者既要考虑系统与外界之间的质能交换,又要考虑到系统内部平衡与非平衡、各相之间的转变以及化学反应等多方面的问题。今后将把单相系作为重点研究对象。2宏观状态参量:(字幕)描述宏观系统的全部宏观特征需要许多物理量,它们都是可以直接或间接进行宏观测量的,称为宏观参量。统计热力学用来描述系统宏观状态的参量,许多都不是本门学科所独有的,如体积、表面面积等属于几何参量(字幕);压强、张力等属于力学参量(字幕);电场强度、磁场强度等属于电磁参量(字幕);不同化学成分的浓度等则属于化学参量(字幕)。统计热力学所独有的基本状态参量是用来定量量度冷热程度的温度。从普通物理已经知道,温度是互为热平衡的物体所具有的共同性质。热平衡定律还为温度提供了测量方法。本课程将在热力学第二定律的基础上给出温度的定量定义。内能和熵等宏观参量是统计热力学特有的重要参量,将陆续和大家见面2.1独立参量和态函数:实践表明,系统的宏观参量之间存在着一定关系。因此,尽管描述系统的宏观参量可以有很多,对于一定系统来说,允许独立变化的参量只是少数。我们把系统允许独立变化的参量数目称为该系统的热力学自由度。根据研究问题的需要,可以从系统众多的宏观参量中选取与系统热力学自由度相同数目的一些参量作为独立参量,其它参量一般都是这些独立参量的单值函数,称为态函数。在多数情况下,总是选取直接可以测量的量如压强、体积、温度等作为独立参量,不能直接测量的量如内能、熵等作为态函数。但这不是绝对的,有时为了研究方便,也可以取后一类参量作为独立参量。2.2内参量和外参量:某些宏观参量是由不属于本系统的外界状态来决定的,称为外参量。例如,当系统的体积由外界物体的位置来决定时,体积是外参量;在平行板电容器充满板间的均匀介质中,电位移矢量只取决于板上的自由电荷密度,电位移矢量是外参量;在充满螺绕环的磁介质中,磁场强度只取决于线圈中的电流,磁场强度是外参量。另外一类宏观参量是由系统内部粒子的热运动、相互作用和空间分布决定的,称为内参量。(字幕)(画图)例如,气体压强由气体粒子的热运动和粒子间相互作用决定,电介质的电极化强度由分子电矩的大小及其取向分布决定,磁介质的磁化强度由分子磁矩大小和取向分布决
正在加载中,请稍后...1156人阅读
查询纠错(2)
数据处理(1)
最近在网络上一直在了解有关基于规则和基于统计的方法的文章,但是觉得说的还是很笼统,为此,根据自己所做的工作参考一些材料聊聊自己的认识,说的较为简单,希望大家能给予批评指正!
说起基于规则和基于统计就不能不说一下有关NLP的一些基本研究方法,首先这谈谈理性主义和经验主义在哲学上的不同之处:
其一就是对语言知识来源不同的认识:理性主义认为人的很大一部分语言知识都是与生俱来的,由遗传决定;经验主义认为人的语言知识是通过感官输入,经过一些简单的联想与通用化的操作而得到的。
其次区别之二就是理性主义研究人的语言知识结构,实际的语言数据只是提供这种内在知识的间接证据;而经验主义直接研究这些实际的语言数据。
其三就是它们运用的是不同的理论,理性主义通常是基于Chomsky的语言原则,通过语言所必须遵守的一系列原则来描述语言;经验主义通常是基于Shannon的信息论。
其四就是采用的是不同的处理方法,理性主义是通过一些特殊的语句或是语言现象的研究得到对人的语言能力的认识,而这些语句和语言现象在实际的应用中不常见,而经验主义偏重於对大规模的语言数据,更偏重于对实际使用中的普通语句的统计。
由哲学思想的理性主义和经验主义可以得到基于规则和基于统计的方法,可以说,哲学的两种思想是导致NLP的两个分支。理性主义问题的求解方法是通过规则的分析方法,建立符号处理系统,目前的方法有基于规则库、词典标准、推到算法设计等,具体实现方法有、形式语言、语法理论、词法理论、推理方法等,主要是以Chomsky的文法理论为基础,通过知识库和推理系统的结合来建立NLP系统。而经验主义的问题求解方法是通过大规模的真实语料(语言数据)的计算方法,例如目前的方法就是大规模真实数据的收集、标注和建立统计模型,具体的实现方法是建立语言模型、HMM、机器学习和搜索算法等。主要是以统计学、信息论和机器学习为基础,是以语料库和统计模型的结合来建立NLP系统。
上面主要是基于规则和基于统计方法的介绍,下面主要是谈谈基于统计的语言模型。
由于大规模数据的出现为自然语言统计处理提供了真实的环境,因此统计方法的研究的进步也推动了语料库语言学的发展,同大规模语料库和统计方法,可以发现人们在使用语言的规律,还可以对机器学习、自动获取语言知识,还可以对未知语言现象进行推测。统计语言模型说的简单点其实就是计算某些时数据概率的模型,人们可以通过语言模型进行数据语言统计的概率进而来预测未发生的概率。概率的计算在这不多说,都可以通过网络得到。
目前有关语言模型中最常见的方法有n-gram模型方法、决策树方法、条件随机域方法、神经网络、最大熵模型方法、最大熵马尔科夫模型方法方法等等。其中最为大家所认知的语言模型是N-gram模型,因此在此也主要介绍一下N-gram模型
N-gram模型又称为n-1阶马尔科夫模型,主要内容就是当前所要使用的词的出现概率仅仅与前面n-1个词相关。这就是一个预测未来查询项的方法,可以用到查询纠错,拼音算法都是可以,主要是通过参数估计,通过对数据用EM算法进行训练,在尽管用户输入不准确的情况下来呈现给用户最想要的数据。N-gram本身的缺点就是会产生数据稀疏性,因此可以通过数据的平滑性来增加N-gram模型的精确度,目前有关N-gram的平滑型方法有多种,例如:加法平滑、Good-Turing平滑、线性插值平滑、Katz平滑、Back-off(后备/后退)平滑、绝对减值平滑等,这些方法详细介绍可以在网络中找到,在这里就不再陈述了。
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:11196次
排名:千里之外
评论:17条
(1)(4)(1)(4)(Severus Snape)
第三方登录:陈希孺:统计规律与因果关系
陈希孺:统计规律与因果关系
吸烟增加患肺癌、其他癌症以及诸如心脏病等等严重疾病的危险,医生提出告诫,劝人戒烟,各种媒体和出版物中不时可以见到有关的报道。这并不是空穴来风,它得到统计数据的支持。早在年,英国有两位学者多尔和希尔就研究过此问题。自那时起至1956年,他们发表了一系列的报告,他们从伦敦20家医院中搜集了709名肺癌病人,以及对照组——另709名未患肺癌者的吸烟情况的资料,按吸烟斗还是纸烟、男或女,将烟吞进肺里或否等等指标分类。经过统计分析,发现吸烟与患肺癌呈明显的正相关(即吸烟促进患肺癌),而纸烟的危害性又大于烟斗。自那时以来,类似的统计资料发表了不少,几乎全部证实了二者有正相关的说法。这个正相关的结论是一个统计性的结论,或把它称为一个统计规律也可以。统计规律有什么特点,怎样去理解它的意义?下面我们要通过本例和其他一些实例来回答这些问题。
首先,统计规律是关于群体的规律。对群体中的个体,情况复杂多样,没有一定。拿本例来说,有吸烟很多而终生保持健康者,也有不吸烟而很早罹患肺癌者,不能用这类个别的例子来否定二者有正相关的结论,因为它讲的是群体中的一种趋势。又如,统计资料的分析表明:人的收入与其受教育年限呈正相关。但高学历低收入和低学历高收入的情况多有发生,这并不否定上述规律的正确性,也是因为它讲的是一种总的倾向性。前些年常提到“体脑倒挂“的说法,并非指存在个别(甚至不少)学历与收入错位的例子,而是指在.整个人群(全国,或某地区,部门)中,收人与学历成为负相关,大的趋势有了倒转。
可能会有疑问:群体是抽象的,每件事都必须落实到其中的个体,患不患肺癌是每个人的事,这样一种关乎群体中的趋势的规律有何意义?对此我们是这样理解的:第一,这种规律反映了某种客观存在的现实,有科学意义和认识意义。如在本例,此规律指出(这正是“正相关”的含义):在抽烟的人群中,患肺癌人数的百分比,要高于不抽烟的人群中的同一百分比,且这百分比还随着抽烟量的增加而上升。这个认识就很有实际意义,它是许多国家和团体发起“戒烟运动”的理由所在。第二,对个人而言,有警戒的作用。我们说这个结论是一个关于群体的规律,并不是说它就与个人无关。天生万物各不齐,个体之间有差异(遗传,环境)不好比,但就同一个人说,吸烟增加患肺癌的危险这一警告并非不适用。又如,一个人多学一些东两,提高自己的能力,对增加自己的收入总会有好处,这与在社会上确实存在学历高而收人低的情况,并无矛盾之处。
“统计规律”这个提法的启示是:教人看问题不可绝对化,因而有思想方法上的教育意义。习惯于从统计规律看问题的人在思想上不拘执一端:他既认识到一种事物从总的方面看有其一定的规律在,也承认存在例外的个案,二者看似矛盾,却是并行不悖,它反映了我们生活在其中的世界的多样性和复杂性。甚至可以说,如果不是如此,我们处处被铁板钉钉的规律所支配,则生活将变得何等单调无味。说起来这不过是一个初浅的常识,但事实表叫,并非每一个人都能习惯于这种思想方式,使其成为一种本能。常听见有这种争论:当甲提出某种说法时,乙就指出一个反例,证明其所说不实。统计学家对此的看法是:甲的说法可以是一个统计性的规律,它需要大量的统计资料的证明或证伪,乙指出的个别反例不一定能构成否定甲的说法的充分理由。
&从反面讲,也可以说统计规律这种东西的出现。反映了人类认识上的局限性.反映了人类对偶然性的作用无力完全掌握。也反映了人类在这种局限性的约束下认识自然的一种努力。即在偶然性造成的纷乱无序的状态下,尽量从中找出一些虽不完善,但具有规律性的品格的东西。拿本例来说,人人都希望能有这样一个公式,当你按照这公式生活时,可保证你不患肺。这种公式现在没有,将来什么时候会有也难说,如果你要求把事情搞到这样确切的程度,则只好什么也不做。究其原因,还是山于个体差异即偶然眭的作用。“不吸烟能减少患肺癌的危险”这类统计规律的获得,是一项有用的成果,虽然它有其局限性。
其次,统计方法只是从事物的外在数量表现上去研究问题,通过对数据的分析,揭示可能有某种规律性的东西存在.而不涉及事物的质的规定性。换句话说,统计分析的结果可以告诉你,从观察和试验资料来看事情是怎样的,而不能告诉你为什么会这样。拿吸烟与肺癌的关系来说,统计分析不能告诉你为什么吸烟是患肺癌的危险因子,那是要由医学家去研究的问题。又如,通过抽样检验对所得数据进行统计分析,表明生产同一产品(如电视机)的甲、乙丙厂中,甲厂产品质量优于乙厂。这纯粹是从所掌握的数据上得出的结论,它不能告诉你为何甲厂产品质量会好些,这可能是由于它的设备新,管理好,工人素质高等等,具体如何.要做进一步研究才能确定。要指出的是.说甲厂产品质量优于乙厂.这也是个统计性的规律,它可以通过统计学的概念和术语,以某种形式表述出来。但当从两厂各拿出一件具体产品来比较时,并不能保证甲厂那一件定好一些。
“知其然而不知其所以然”一般是一个含有贬意的说法,用统计分析方法得出的结果,属于这种情况.其意义何在,有必要加以说明。下面从两个方面来讨论这个问题。
从应用上说,一旦我们从数量的表层发现了某种有实用价值的规律性,就可以立即将其付诸应用,至于其机理问题.可留待学者们从长研究。有许多具实效的药物、偏方和治疗方法,经过一定范围内的使用验证确有成效而得到推广,其机理有的并无满意地解释。在工业中,通过配方、工艺上的改进而得以改善产品质量的例子很多,这在起初都是经过多次试验面总结出的结果,经过生产实践证明其有成效而得到推广使用,即使其理论根据一时末能完全探明,也无妨其实。
当然,这不是说不必去做出努力以弄清其“所以然”。因为,明白了有关的机理,可以指示进一步努力的方向。
至于在以认识自然为目的的基础研究中,目标本来就在于探求事情的“所以然”,当然不能停留在事物表层上。但即使在这类活动中,统计疗法仍有其不可缺少的作用。事物本质的秘密往往隐藏在深处,不是轻易能够被揭示的,但它可能以一种曲折间接的方式,在某数量之间的关系上,露出冰山的一角。许多重大的发现,都是先通过观察或试验积累数据,对之进行统计分析,其结论指示了向哪个方向去探索。
通过表面上的数量关系的分析,而导致科学上重大发现的一个著名的例子,是孟德尔遗传定律的发现。而对现代生命科学有决定性影响的基因学说的提出,就是建立在这个发现的基础上。孟德尔是奥地利生物学家,他的上述成果发表在1865年的一篇论文中。他是用豌豆做试验,这种豆有黄、绿两种颜色,孟德尔分别培养了一个黄色的纯系和一个绿色的纯系,其每一代所结的豌豆全部保持同一种颜色。孟德尔将这两个纯系进行杂交,发现这种杂交品种豆了全是黄色,看上去与黄色纯系并无不同,但在将这种杂交品种再进行次杂交时,孟德尔发现这第二代杂交豆子的颜色黄、绿都有,其比例接近3:1。孟德尔将这个试验重复了很多次,每次都得到类似的结果。
如果他将这项工作就进行到此处为止,则这个3:l的统计性规律也可算是一项科学的发现,但意义毕竟就比较有限了。因为它只涉及这么一件具体事情。但这个表面上的统计规律性启发了孟德尔去着手提出一种假说来解释这个现象。具体说,他假定有一种后来被称为“基因”的实体控制着豆子的颜色,这实体有两个状态(被称为等位基因)y(黄)和g(绿),共组成yy,yg,gy,gg
4种配合,称为基因型。前3种配合,即其中至少有一个Y的,使豆子呈黄色,唯有第4种配合gg,使豆子呈绿色(在遗传学上,称y是显性的而g是隐性的,意思是只要有y在g的作用就退隐了)。根据这个假说.孟德尔的试验结果就得到了圆满的解释:黄、绿纯系的基因型分别是yy和gg,杂交第一代只有yg一种可能的基因型,故全呈黄色。但第2代杂交是yg配yg,每方出一个,共有4种同等的可能性:yy,yg.gy,gg,前3种呈黄色而只有后一种呈绿色,这解释了第2代杂交豆子中黄、绿两种颜色之比近似为3:1。下表是孟德尔试验中的一些具体数据:
就每一株来说,绿色豆子占该株豆子总数的比例接近1/4,但有些差距,有的株差距还不太小,全部10株绿色豆子所占比例为123/(355+123)=25.7%,就相当接近1/4。为什么这个比例只是接近而不是严格等于1/4?这就要归结于偶然性的作用。每个植株豆子都不多,偶然性的作用就比较明显,十株合起来,豆子总数加大.偶然作用彼此抵消了,1/4的比例就更突出出来。如果植株更多,这比例与1/4的差距就会更为缩小。&&&
“基因”这个名称是英国学者贝特森在1909年引进的,自此,基因学说主导了20世纪生物学尤其是遗传学的发展,其意义无可估量。到1950年,基因的存在在分子的水平上得到证实,可以说是给从孟德尔开始的这一项重要研究工作划上了一个圆满的句号。可以看出,统计方法在其中起了先导的作用。奥地利著名的现代物理学家薛定谔有一段话,很中肯地表达了统计方法在科学研究中所起的作用(转引自陈善林等著《统计发展史》,245页):“在最近60年或80年中,统计方法和概率计算进入了一支又一支的科学……开始时(使用)这个新式武器总是伴随着一个借口:它是为了救治我们的缺点,我们对细节的无知,或无力应付大量资料……但是似乎无意中,态度就改变了,我们意识到,个别的情况完全没有兴趣,不管关于它的详细知识是否能够得到,不管它提出的数学问题能否应付,我们明白:即使它可以做到,我们也会因跟踪成千的个别情况(而导致的纷乱状态)①,最后也不能得出一个比统计数量更好的结果,我们实际感兴趣的乃是括号自的文字为作者所加统计机制的运用”。薛定谔这段话所指的就是在涉及大量个体的群体的研究中,统计性规律的意义和作用。群体中的个体数太多,即使你有能力对其一个个加以跟踪研究,也会因为个体的差异性而呈现的纷乱状态,使你得不出什么有用的结论。相反,一个或一反映统计规律性的统计数量对我们更有用。例如,调查了成千上万的人的身高体重状况,都登记在一本册子上,杂乱无章,看不出什么问题。而一个反映统计规律的粗糙公式:体重=身高-105,则对我们有用得多,虽然这公式远非确切。薛定谔所说“我们实际感兴趣的乃是统计机制的运用”,指的正是通过个别情况的研究从中总结出统计规律性这样一种方法。而薛定谔指出,这种规律性有助于我们探求事物的实质。
薛定谔说这个话是在1944年。当时,电子计算机尚未发明,人们处理大量数据的能力还很有限,从今天的情况看,他的论点就显得更为贴切。在有计算机之前,有不少统计方法,因为涉及的计算量太大,人力难于完成,因而实际上无法应用。现在,像处理大气污染这类问题,牵涉几十个因素和极大量的数据,在以往是不能想象的.如今用计算机可在很短的时间完成。1858年,英国为绘制本国地图,做了一次大型的大地测量,收集了极大量的数据,用最小二乘法处理这些数据,涉及解920个未知数的线性方程,整个工作分两组人员独立进行,花了两年半的时间才完成。如今在电子计算机上,这类的计算已算是比较轻而易举的事情。这种情况的出现,使基于数据的统计分析方法在探究自然的奥秘中,起着比以往更大的作用。
&以上的论述着重在替统计分析方法“评功摆好”,那么,有没有负面的因素呢?我们说有,不过要赶紧申明的是,这种负面因素,并非出自方法本身,而是在于方法的不当使用以至滥用。多年前有一位知名的美国统计学家来中国访问,他曾半开玩笑地说:“什么是统计学家?有人说,统计学家是一群骗子,他们可以用数据证明任何想要证明的事情”。这是指的对统计方法的滥用,甚至是为了自私的目的而损害公共利益,其中包括伪造数据,所谓“官出数字,数字出官”,指的就是这件事。即使不伪造数据,只要通过有偏向地采取数据,也可以引导出所想要的结论。例如在宣传某种药物或保健品的功效时,只提正面的例子,对无效甚至有反面效果的例子略而不提。更多的情况是使用不当。这首先是数据的采集。数据的采取方式必须严格符合随机性等一系列的要求,才能用作统计分析的原料,不然就会产生误导。关于这一点,本书以后的章节会有一实例来说明。其次(是效应或差距的显著性问题,这指的是如下的情况:有的试验的目的是为了证实某项措施有效应(例如一种治病的新方法,其疗效比现有的方法高),但试验规模很小,或试验误差太大,因而偶然性影响增大,从数据上显示的差距,其实不过是出于偶然性的作用而非实质的。这一点用严格的统计检验方法本是可以鉴别的,但因未作这种严格的统计检定.就按其表面差距以成果的形式报道出来,而产生误导。
我们不时地从媒体及出版物中,看到对同一件事的两种不同的说法,都有其统计资料的根据:盐吃多了易导致高血压.但也有说二者并无关联的;糖是健康的杀手,但也有要“为糖平反”的,类似这种例子很多,尤其是涉及与人体有关的。那么,为何这些截然不同的说法.都有其统计资料的支持呢?一方面,这需要仔细审查其数据的获得方式,以及数据的规模。因为,在有些问题,特别是与人体有关的问题中,个体的差异太大,局部的数据,即使其来源正当,统计分析方法也合乎规范,但依靠规模不大的数据分析所得的结论外推至于普遍,常会发生问题。例如,根据法国人喝葡萄酒多而心脏病患者少,就推出喝葡萄酒有助于降低心脏病发病率的结论。可是第一,法国人心脏病发病率低是否与多喝葡萄酒有关,是意见未经严格统计分析证实的事情,还有待做进一步的研究;其次,即使这一说法对法国人成立,它是否必然也适用于其他人,尤其是在地域上、体质上和生活习惯上与法国人都有较大差异的东方人,也需要统计资料的证实。
总之,统计方法是一个很有用的方法,但其单从表面数量关系着眼的特点,使其有易于被滥用、误用和夸大的危险。统计学的任务就是教人怎样去正确使用这种方法.恰当而有分寸地解释其结论,对种种统计分析的结果做出正确的评估(这需要对其数据来源及使用的方法有了解)而避免误导公众或为人所误导。
统计规律常以“某些事物之间有关联”的形式出现:吸烟与患肺癌的关联,学历与收入的关联等都是例子,要注意的是,这种关联性不一定意味着因果性。当甲、乙两个事物有关联时,可能甲为因乙为果.或乙为因甲为果,也可能什么都不是,而是甲、己二者都受到某一尚不了解的因素的影响而产生关联。
《南方周末》日刊登了一则报道,说华盛顿大学医学院的专家在对1
000人检查中发现,其中耳垂有皱褶的有373人,在这373人中,查出患冠心病者有275人,比率为73.7%,远高出一般人中冠心病患者的百分比,显示二者之间可能存在关联(这一点尚待更多的资料证实)。但二者之间是否有何因果关系则难言。不能想象耳垂皱褶之“因”导致了冠心病之“果”,冠心病导致耳垂皱褶的根据也非明显。是否有何隐蔽的因素同时导致这二者?这是一个可以设想的解释,究竟如何.有待进一步的研究。
《科学时报》日的报道称:“大城市里拥挤、嘈杂、紧张而充满压力的生活方式,是导致人们心脏病发作的主要原因”。又说,“美国科学家的研究表明,纽约是最容易引发心脏病的大都市”。
报道没有揭示美国科学家做出该项结论所依据的数据。说到因果关系,从常识看,也觉得有充分的理由相信前者是因而后者是果,不过也还有进一步考虑的余地。笔者曾去过上海、香港、东京、纽约等大城市,发现从拥挤嘈杂紧张等方面看,上海香港东京未见得比纽约好,但这些地方心脏病发病率也不高于他处。
最有名的例子,恐怕要算前面讨论过的吸烟与肺癌的关联问题。根据多尔和希尔的报告,《英国医学杂志》于日发表社,肯定了吸烟对健康的损害作用,并认为有必要在公众中广为宣传此事。进招致了当时在英国也是全世界最著名的统计学家和遗传学家的费歇尔的质疑。费歇尔是20世纪现代统计学的主要奠基人,现今仍在使用中的一大批重要的统计方法就是出自他的首创。他因在科学研究上的卓越贡献,于1929年被授予爵士称号,他的质疑当然非同小可。在年这两年期间,他为此与一些人卷入了一场论战,论战是以在《英国医学杂志》上发表信件的形式进行。
费歇尔从多尔—希尔数据的分析中,发现了一件有些出人意料的事:在吸烟者中,把烟吸进肺里者,其患肺癌的危险性,显著地低于那不把烟吸入肺里者,显著度高达l%。后一语的意思是:结论(即吸入者患肺癌的危险低)犯错误的机会低于1%。如果烟真的对肺有伤害,那么,将烟吸入的危险性理应更大,这是一个与“二者(吸烟与患肺癌)有因果关系”的论断相矛盾之点。
这还不是费歇尔主要的质疑之处。他对吸烟与患肺癌的关联提出了一种可能的解释:二者可能受到同一基因的控制,即某些人有一种基因,它同时注定了这些人:1、爱抽烟;2、易得肺癌。如果这一解释成立,则吸烟与否并不增加或减少发肺癌的危险,人们也不必为此而戒烟。可见这并非一个纯学究式的问题,而是有其巨大的现实意义。
费歇尔的主张属于下面的模式,当然这也是一切科学工作者所应遵守的模式:如果你发现一种现象,它可能有甲、乙、丙、丁等等解释。无论用甲去解释这个现象的理由有多充分,但如你不能排除乙、丙、丁等等的可能性,这解释还不能最后确立。关于上述问题,费歇尔做了一些努力。他找了一些同卵双生者和异卵双生者,调查了他们的吸烟习惯,发现前者极相似而后者的相似度差得多,这似乎支持了“吸烟习惯系受基因控制”的论点。但出于取样上的困难(同卵及异卵双生的样本难得,其中患肺癌者更稀少,不足以进行有效的统计分析),费歇尔也未能找到支持上述论点的充分证据。可以说,此问题在科学上讲至今仍属悬而末决,不过大多数人(包括医学家)都倾向于相信,吸烟确是导致肺癌的一个危险因子。
&应当指出的是:统计规律未必蕴含因果关系,这一点,是统计方法的本性而非其缺陷。寻找因果关系是各类专门学科的任务。统计学作为一门数学学科,统计方法作为一种研究问题的工具,不可能把寻求万事万物的因果关系这样复杂的任务担当起来。但它通过数量上的分析揭示表面关联的仔在,起着指示专门研究努力的方向的作用。
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。}

我要回帖

更多关于 一般规律和统计规律 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信