社会科学研究方法论的研究方法具体有哪些

目前社会科学实证研究中的「因果识别」都有哪些方法和新发展?
来源:互联网
【如题,我预感这个问题不会火,请看到的知友们踊跃邀请大神,谢谢】
「因果识别」可以算得上是社会科学实证研究里的核心问题了。首先来定义一下什么叫做「因果关系」。举一个例子来说明:读大学并拿到本科学位对收入有什么影响?(这里要注意的一点是,类似于「影响」,「效果」,或者英文里的 impact, effect, lead to, result in 一类的词都代表着你在描述的是因果关系。使用的时候要非常小心。)对于某个特定的个人,我们需要知道两件事:1)这个人读大学并拿到本科学位之后的收入;2)让这个人穿越回要上大学之前的那个节点,不上大学,直接去工作的收入。用1)减去2)就是这个人读大学并拿到本科学位对他 ∕ 她本人收入的影响。对于某群人,我们同样需要知道两件事:1)这群人读大学并拿到本科学位之后收入的均值;2)让这群人都穿越回各自上大学之前的节点,不上大学,直接去工作的收入的均值。同样用1)减去2)。所以想要得到因果识别的结果,最关键的一点就是得到对照组(counter-factual),也就是上面列出的2)代表的结果。自然科学可以通过实验环境创造出比较可信的对照组,而社会科学的困境就在这里。我们研究的主体是人和人的行为,很难找到两个各方面指标都一致的人互为对照组,而实验也非常难以严密控制。如果有时光机,可以穿越,搞社会科学实证研究的大概都会喜极而泣吧 o(≧v≦)o~~所以总结起来,各种「因果识别」的方法本质上都是在寻找可信的对照组。至于现在主流的常用的方法, 的答案已经写的蛮全了。我这里做一些补充说明,顺便也是给自己读过的文献做个梳理。举的例子主要是劳动 ∕ 教育经济方面的,角度会比较偏向政策分析。有重复的地方还请见谅哈 ^_^1. RCT - Random Control Trial ,随机试验 关于这个方法在发展经济学里的应用,MIT的两位大神Duflo和Kremer有一篇很好的工作论文做总结: Duflo, E. and M. Kremer (2005).
"Use of randomization in the evaluation of development
effectiveness." Evaluating
Development Effectiveness 7: 205-231RCT现在这么火跟Duflo在MIT的JPAL的大力推广关系很大。这个方法从理论上来讲非常简单。还是举前面那个例子,因为我们没办法同时观测到一群人上大学拿学位之后的收入均值以及同样这群人不上大学的收入均值,我们可以将这群人随机分为两组,让group I 的人去上大学拿学位,并让group II 的人不上大学直接工作,用前者的均值减去后者的均值。由于我们是将两组人随机分配的,理论上如果可以将实验重复很多次,那么多次实验得到结果的均值是趋近于真实的因果效应的。如果我们能确保分组的随机性,并严格控制实验的进程,这个方法确实能帮我们生成一个可信的对照组,所以RCT也被很多人认为是「因果识别」的黄金准则。也就是说,很多研究者认为,同一个问题用这种研究方法得到的结果更可信,在有条件的情况下,应该尽量去进行随机试验。但这个方法还是有一些问题的:第一,结果不可扩展或者推广(external validity)。比如在墨西哥有个实验PROGESA,政府随机选择一些社区,给这些社区的家庭提供现金支付,看这些社区的学校出勤率,健康诊所的访问率,还有儿童的营养状况是否得到了提升。假使研究者发现这个项目有正效用,是不是说中国政府或者印度政府也可以用同样的政策来提升教育与健康水平呢?显然不能,因为墨西哥的经济,环境,宗教,文化等方方面面都和中国印度不同,在墨西哥成功实行的政策在中国或者印度不见得管用。很多RCT的支持者认为解决这个问题的办法是,在很多不同的context下重复同一个随机试验,观测结果是否稳定。但是,随机试验是非常昂贵的!为什么现在多数的RCT都是在非洲和东南亚的发展中国家做,这正是因为发达国家人力资本非常昂贵,你要在美国做个试验,光雇人录入数据的钱就可以在肯尼亚把整个试验弄好几年了。一句话,做不起啊!第二,以人为对象的实验非常难以操控。美国田纳西有个实验STAR,目的是研究class size对学习结果的影响。实验把老师和学生随机分成三组:1)小班(13到17人);2)普通班(22到25人)搭配带薪的助教;3)普通班无助教。这里就有个问题了-- 如果你是家长,你孩子被分到了普通无助教的班里,你怎么想?你要是李刚你还不想尽办法把孩子弄去小班里啊!你要是土豪还不快点把孩子转去私立学校啊!就算你不是李刚也不是土豪也可以告诫孩子你被分到了最不好的班里一定要好好努力学习不然没救了啊!当然也有大批对此无动于衷的家长,可是这样的家长与会关心孩子分班结果的家长必然有本质的区别。总的来说,你无法预测被分到不同组别的被试者是否会有不同的反应和行为。所有这一切实验设计者无法观测到的内部现象都会对实验结果造成影响。第三,只能观测短期效应(起码目前来说是这样)。这和前两点是相通的。因为实验的昂贵,和各种不可测的因素,我们很难用RCT来识别某项政策的长期效应。政策制定者当然想知道小学的class size是否会对成年后的收入产生影响,可是跟踪被试者20-30年基本上没有可操作性。与此相关的另一个问题,被试者的流失。理论上只要流失的被试者是随机的就不会对结果造成影响(统计结果依然无偏)。可是我们可以看class size的例子,因为李刚和土豪的存在,显然普通班的被试者流失会更为严重,而且不是随机的。而对于政策制定,我们想知道的往往是长期效应。这就是,你给了我一个很正确的结果,但回答不了我想要问的问题╭(╯^╰)╮第四,这个不完全算是问题,但是是实验设计时非常值得注意的一点 -- 选择哪个单位(level)进行随机分组。上面墨西哥PROGESA的例子,研究者实际要研究的单位是家庭,可是随机分组的单位却是社区。为什么?假设重新设计实验,在一个社区内随机选择一些家庭,给他们现金支付。这时候有了现金的家庭更有能力去看病,感染上某些传染病的几率减少,不仅仅是这些家庭的成员会更健康,那些同一社区没被随机选中的家庭也会受到正的外部性的影响 -- 他们得传染病的几率也减少了。为了消除这些spillover effects,设计实验时选择了更高一个单位的社区进行随机分组。第五,出于人道主义的立场,有些实验不能做。抽烟对健康有什么影响?我们能随机抽一些人强迫他们抽烟吗。。。?2. Natural Experiment ∕ Instrumental Variables 自然实验 ∕ 工具变量把这两个放在一起写是因为工具变量实际不是一种研究设计,往往是自然实验里会用到的统计方法。同样是回答类似上面那个大学教育对收入影响的问题,David Card有一篇文章:Card, D. (1993). Using geographic variation in college proximity to estimate the return to schooling (No. w4483). National Bureau of Economic Research.上了大学和没上大学的人不是很好的对照组,因为他们在家庭背景,智力,偏好等各个方面都有显著的差距,我们不能直接把上了大学和没上大学的人收入均值相减. Card这篇文章是用college proximity(家附近是否有大学)作为工具变量:两个其他条件都一样的人,一个家附近有大学就去上了,另一个家附近没有大学就直接工作了.由于college proximity不同而造成教育结果不同的两类人,可以作为一对比较可信的对照组.简单来说,样本里可能存在四种人:always-taker:不管家附近有没有,都要去上大学的人never-taker:不管家附近有没有,都不会去上大学的人complier:家附近有就去上大学,家附近没有就不去上大学的人defier:非要家附近没有才去上大学,家附近有就不去上大学的人 (==!)工具变量的第一条假设就是:defier是不存在的.这个没法从数据里验证,但还算合情合理吧.第二条假设是说,always-taker/never-taker在工具变量赋值不同的情况下有同样的结果.这条也叫做exclusion restriction.对于一个always-taker来说,他最后的收入不会因为家附近有没有大学而变化,因为他总是会去上大学.用另一个角度解释,就是college proximity不能通过除了「影响一个人去不去上大学」这条路径以外的其它方式来影响一个人的收入.所以实际上,工具变量能影响的只有complier.它也可以被表述成 简单OLS回归结果 除以 样本中complier所占的比例.这里引出第三条假设college proximity对于是否上大学的决定不能为0.同时因为complier比例是被除数,如果它很小的话,会导致工具变量得到的结果非常大.这就是weak instrument的问题.另外一条假设是工具变量本身是随机.也就是说你家附近是否有大学不可以是你选择的结果,对于那些为了生活环境特地搬去大学附近居住的家庭来说,这个工具变量就不适用了.这也是为什么工具变量往往是地理,天气,突然的政策变化等等不可人为控制的东西.正是因为它们的不可操控性,它们才更有可能是随机的,可以帮我们得到好的对照组.另外,关于工具变量必须要强调的一点是,它得到的结果是LATE - local average treatment effect.也就是说它只适用于complier这种 去不去上大学的决定(treatment status) 会被 家和学校距离远近(IV) 影响的人.在这个例子里,这是些什么人呢?因为学校远就不去上的人更有可能家庭条件不好,学习的兴趣更弱等等. 这里得到的结果,是对这些人来说,上了大学对收入的影响. 而对于前面RCT的例子,那个结果是对于各方面都比较接近社会均值的人,上大学对收入的影响. 这两个结果是两个完完全全不同的东西,如果不相等是非常正常的事,那说明我们想要研究的政策/变量对不同的人有不同的因果效应(heterogeneity).每每在别人的文章里看到诸如「我们的IV结果与OLS不同,说明OLS的估计是有偏的」的句子, 我都非常之烦躁.这本来应该是每个上过最基本统计课的人就了解的道理,可是不乏有顶级期刊里的文章还有类似的表述.实在是太不严谨了!本来以为很快就能写完的,结果发现是个大坑。。待续吧
谢邀。之前各位已经写了很多很有启发的答案了,最近比较忙,积攒了很多问题没有回答,先行道歉。在这里我总结一下计量经济学的门派吧,然后再说经济学中的因果识别方法,希望这个答案能在一个稍微大一点的视角做一点总结。首先大家应该一下子就能想到,计量经济学首先有两个大的门派,微观计量和宏观计量。前者一般从微观个体出发,后者更多应用时间序列数据。当然,宏观经济学用到的方法,除了计量经济学的估计和识别之外,还有校准,这个我不是很熟,就不多说了。而无论是哪个门派,下面又有很多宗派。比如在宏观计量里面,传统的matching moment、MLE和现在非常流行的Bayesian显然是两个不同的宗派。而在微观计量里面,则区分了structural-form和reduced-form两个宗派。题主问的是因果识别,那我们就先来说一下不同门派、宗派之间因果识别的差别。首先说我最不擅长的宏观计量。宏观方面,最popular的概念应该是格兰杰因果了。但是,相信大家都听说过,格兰杰因果不是真的因果。格兰杰意义上的因果仅仅是看滞后的变量能不能预测当期的变量,这里面问题就很多了。在这一领域,传统的方法是VAR,以及相应的VECM等,格兰杰因果也是在这个框架里面的东西。但是如果真的想要识别因果,特别是有当期影响的时候,就需要用SVAR了。微观计量呢?微观计量的因果识别好玩的多。结构和简约两个门派总在相互竞争中不断发展新的想法。两者的区别在于,结构模型有有力的理论模型作为支撑,目的是估计模型的结构参数。而简约派则是避开复杂的经济理论建模和结构参数的估计,通过使用自然实验、工具变量等方法直接找到想要的参数(这个有点像唯识宗给你丝丝分析宇宙人生,而禅宗则是明心见性,直指人心)。在举例子之前,我先总结一下以上答案提到的方法:OLS、实验:最基本的办法,除非有理论支撑,或者数据来自与实验数据,一般会失败。IV:当存在内生性的时候普遍的解决办法,很多方法,比如RD、LATE都可以看作是IVDID:自然实验,实验组和控制组有共同趋势RD:自然实验,外生的断点以上的这几个方法都是reduced-form最经常用的。其中OLS和IV因为太general,所以structural model也会大量使用(在structural模型里面,IV经常是系统内部就可以找到的)。当然,对于structural model中足够复杂的模型,MLE、GMM以及许许多多其他估计方法都是非常多的。为了更直观的给大家说清楚两个宗派的差别,我举个例子,如何识别peer effects。这套文献说白了就是想要看人和人之间的交互影响,比如你努力学习会不会影响到你的朋友也努力学习。首先我们来看structural-form怎么做的(Peer Effects and Social Networks in Education, Calvo-Armengol,Patacchini and Zenou, The Review of Economics Studies.):第一步,理论建模:第二步:讨论均衡第三步:讨论识别条件最后,得到估计。最后,得到估计。这里我就截屏略过具体的细节了,只想给大家看一下structural model是怎么做的,具体感兴趣可以看原文。那么同样一个问题,reduced-form是怎么做的呢?Peer Effects in Program Participation, Gordon B. Dahl, Katrine V. Loken and Magne Mogstad, The American Economic Review给出了一个用RD来识别peer effects的例子(感谢
的slides)。 Peer effects的识别有个很严重的问题是reflection problem,也就是相互影响。而这篇文章使用了休产假的改革作为自然实验,巧妙的避开了这个问题。这篇文章没有像前一篇文章那样复杂的理论建模,自然实验的背景一下子把问题简化了许多。而在第一篇文章里面,这个问题则是在给出理论假设的条件下给出识别的。Peer effects的识别有个很严重的问题是reflection problem,也就是相互影响。而这篇文章使用了休产假的改革作为自然实验,巧妙的避开了这个问题。这篇文章没有像前一篇文章那样复杂的理论建模,自然实验的背景一下子把问题简化了许多。而在第一篇文章里面,这个问题则是在给出理论假设的条件下给出识别的。现在,问题来了:拳有南北,国有南北么?哈哈,开个玩笑。有段时间,看文献的时候也会问,究竟哪个宗派更好。直到后来,我才发现我多虑了。在没有达到一定的水平之前,讨论自己归属什么宗派,总是有点自不量力的感觉。就好像有人问我是禅宗还是净土宗,我说按照我的修为,还到不了谈宗派的程度。宗派归属可以不谈,但是宗派之间的差别却是可以谈的。前面说了宗派之间的差别,那么,两个宗派之间有没有联系呢?下面是私货时间,我自己的想法,不喜欢请轻喷。。。我觉着,是有的。之前说的什么RD DID都是招式,但是仔细考虑下来,经济学的识别方法无非就两个:找实验、加假设。这两个东西,一个是数据的问题,另外一个,则是理论的问题。最理想的情况,是你有实验数据。这个时候,啥都不用多想,OLS就可以解决问题。但是多数情况下,你没有那么好的数据,这个时候,可以退而求其次,找一些自然实验。比如RD,虽然你的数据不是实验数据,但是由于有外生的断点,你只需增加一个假设,那就是其他变量在断点处没有断点,那么,你还是可以在局部识别出你想要的东西。但是,如果你连自然实验都没有,那麻烦就大了。你不得不增加更多的假设,然后你会发现,你的模型慢慢的变成了structural model。再举一个例子,我想做教育的回报,比如上大学对未来收入的影响。最好的情况,是我做一个实验,找一批孩子,随机让他们上大学或者不上大学,几年之后看他们收入的差距,这是最理想的情况。如果不能做实验,那么退而求其次,我们看看有没有自然实验。比如某次考试高于某个分数的可以上大学,低于这个分数不能上大学,那么好了,我们可以做一个RD,看在这个分数线周围的学生有没有明显的工资差异。如果连这个都没有,那么我可能需要找IV,这个时候你就需要假设你的IV是外生的,而找IV也是个非常艰难的过程。最后,如果你IV也找不到,还有方法是你把上不上大学这个行为也进行建模,然后在这个模型里面加入一些很强的假设(比如方程之间误差项的分布、相关性等),通过这些假设,也可以作出结果。以上的这个过程,随着你的数据越来越差,假设也越来越强,模型也越来越结构化(你需要添加更多的结构)。其实在宏观计量里面也是这样。比如前面提到的SVAR的识别,一般来说模型很难识别,为了识别这个模型,许许多多可能的假设被加到这个模型里面,使得最后这个模型可以被识别。比如一开始的时候,大家在误差项里面做假设,使得参数可以被识别。后来大家又直接根据宏观理论,假设某些系数的符号,给出识别,或者假设某些参数的值为0给出识别。这个过程跟上面的想法是一样的,如果不能识别,做假设也得把模型识别出来。至于怎么做假设,就看你的理论模型了。所以,很多时候不是我们去选择用哪个宗派,而是手中的数据决定的。或者说,我们总是在假设和数据之间做trade-off。当然假设是不是合理,那是另外一回事,文章的好坏也跟假设是否合理有直接关系。扯了这么多,无非是想说,其实因果识别的方法很多,大家列举出来的和大家没有列举出来的,总会有一些共性。答案有点杂,排版有点乱,时间关系,就先写这么多吧,这里面有太多东西可以写,这么一个答案显然是不能给出因果识别的全貌的。此外,如果有错误,请提出更正,欢迎讨论。===========另外,大家还忽略了一个问题,就是关于因果,何谓因果,在学术界还是有一些争议的,这点过几天可能会在另外一个答案里面详细描述,暂时不做讨论。最后,以上给了这么多废话,最后给一点干货吧,除了Angrist的《人畜无害的计量经济学》,有本书特别推荐阅读:Micro-Econometrics for Policy, Program, and Treatment Effects, MYOUNG-JAE LEE作为一本专门讨论treatment effects的书,很值得阅读。
社会科学研究中的“因果识别”手段可以分为两大类:实验方法和非实验方法。对于实验方法,大家很容易想到学习生物课程时接触到的实验:一个对照组,一个实验组,两组除了我们所感兴趣的因素(记为A)不同之外,其他条件完全相同,然后我们观察到两组结果的不同就可以归结为A这个因素的影响,即A的不同就是导致结果不同的因。社会科学研究探究“因果关系”本质上与自然科学实验所要证明的“因果关系”是一模一样的。但社会科学中涉及到的人、社会环境等等差异很大,为了使得研究结果能够推广应用到更大的群体、社会中,实验的样本就需要代表性,数量上也要求更大,所以进行社会实验的成本是非常高昂的。而且人具有能动性,对实验设计的能力也提出了非常高的要求。这也是为什么社会科学中的实验方法在近七八年来才有了显著的进展。因此,长期起来,社会科学研究者使用的数据大多是调查收集的数据。由于调查对象的异质性、自选择行为等的存在,简单的按照某一个条件(记为B)将对象分成两组进行对比,是无法有效得出“因果关系”的,因为很难说两组对象的差异只有B这个条件的差异。类比于实验方法,其实就是没能为实验组找到一个非常好的对照组。非实验方法的发展,一直是沿着“找/构造一个更好的对照组”这个方向发展的。从最简单的回归,到加更多的控制变量,到工具变量法IV/倾向性得分法PS/不连续回归法RD……然后越来越接近实验方法。下面这张图归纳了实验方法-非实验方法。每一种方法的具体介绍,大家都维基百科一下,后者下载相应的介绍论文观摩一下吧~
Junyi Hou:
Sufficient statistic method其实充分统计量这个方法不算新,但是以前一直用得不多,被主流的方法甩出好几条街,现在重新发现他的价值,所以又重新被拿出来用。不想看二手资料的同学可以移步 . Raj Chetty对这一方法的一个很好综述。一句话总结:充分统计量方法的引入解决了传统方法要么做不了,要么做不好的困局。让人不禁感慨,原来水(坑)还可以这么灌(挖)!===传统的实证方法大体上可以分两大类:structural form和reduced form(不知道怎么翻译,结构模型和简化模型?(following ))。我们想要研究变量是否是变量的因(cause),简化型(reduced form)通过一系列的统计方法,试图直接用数据去识别这一因果关系。只要识别(identification)清晰,简化型就可以通过数据来推测我们想要知道的因果关系的数量特征(quantitative behaviour)。而简单明了的识别正是简化型的一大优势。但是,简化型并不提供反事实(counterfactual)的推断。简化型所估计出来的并不能成为政策建议的依据。因为简化模型“过度”依赖事实数据(factual data),而如果改变政策的同时改变了数据生成的方式,那么简化型所得到的与真实值就毫无关系了。不巧的是,社会科学所用到的数据往往与人的行为有关,而这些行为又会根据政策(以及其他外部因素)的改变而改变。一旦行为改变了,数据生成的方式也就改变了。那么在政策或其他外部因素变化之后,简化型所得到的结论是不是仍然适用,就需要打一个问号了。结构模型(structural form)通过建立引起因果关系的数据生成具体方式(i.e.机制)的模型来解决简化型中的问题。由于在模型中明确地指明了一些重要的外部因素(如政策)是如何影响通过某些参数来影响参与人决策的,我们就可以通过估计这些参数来考虑这些外部因素改变对数据生成方式的影响。那么,通过改变这些外部因素并结合现有数据所估计出来的参数,结构模型可以提供一系列反事实推断,对政策的制定有重要的意义。结构模型听上去美如画,但在实证方面却往往不是那么一回事。结构模型由于其参数多,识别的难度也大大加大。相比于简化型清晰的识别,结构模型往往需要大量质量奇佳的数据进行识别,而现实中的数据往往质量没那么好,所以结构模型要么只能识别一部分,要么只能做一些十分简单的模型(盗用一个Chetty的例子,如果研究商品税收对总体福利的影响,如果我们允许消费者之间效用函数各不相同(i,e, ),那么结构模型在理论上是无法完全识别的;同时,如果消费者的选择是离散的,那么结构模型在识别上也会出现很大的困难),而这些简单的模型往往无法满足我们的需求。我所知的文献中现有结构模型往往依附于一些大型的随机试验项目(例如墨西哥的PROGRESA和印度一个NGO Seva Mandir的项目)以获得高质量数据。那么问题来了,(挖掘机技术到底哪家强?)如果我们想做一些政策研究,或者只是想让我们的研究有一定的external validity(咋翻译?),陷入到简化型做不了,结构型做不好的境界,那么怎么办?事实上,这个问题可以归结到参数的识别上,不严格地说,假设结构模型所想识别的参数为,那么简化型所估计的参数事实上为的一个变换,并且,即简化模型中参数较少(所以识别简单)。由于(而不是)的值决定了政策变化是如何改变数据生成过程的,为了得到反事实推断,我们需要识别,但由于多个对应同一个,所以简化型无法提供反事实推断,但本身一般很难识别,导致了我们的两难局面。充分统计量方法(sufficient statistic)是指在某些情况下,为了获得反事实推断,我们不需要识别,而只需要识别的一个降维变换,; 。这里的就是一个的充分统计量:虽然多个对应同一个,但是这些不同的不会影响数据生成方式,即是“充分”的。因此,为了得到反事实推断,我们只需要识别即可。充分统计量方法的思路在很多传统结构模型中或多或少都有应用到。比如在面板回归中,我们常常将无法识别的常数项一起丢进各种fix effects里面,也就是虽然我们无法单独识别这些n维常数项C1,C2,C3,...,但是我们可以识别他的一个一维变换 C1+C2+C3+...。充分统计量将这种思路拔高到另一个层次,将一系列无法识别的真正有意义的参数(而不仅仅是我们不太关注的常数项)“合并”到一两个可以识别的统计量上,并且由于这些统计量已经考虑了数据生成方式对政策变化的反应,我们可以通过这些统计量的估计值进行反事实推断,做出许多颇有意义的政策建议。不出意外的,充分统计量方法最先出现在公共经济学和福利经济学这些政策性较强的研究中,强调理论模型的复杂,识别的清晰和policy-invariance(对政策变化的普适性?)。现在这一方法已经慢慢扩展到贸易、劳动、产业组织、行为等等一系列应用经济学领域。根据“大牛挖坑,小牛灌水”的普遍规律,充分统计量方法还将在各大实证领域继续发光发热。===个人感觉格兰杰因果跑题了
这个问题比较有意思,我从医学的角度讨论一下。因果关系的确定并不容易,我们一般先是从具有统计学意义的相关关系入手。两个变量具有相关关系,例如和俗套的:小朋友和小树在某一年同时测定高度,以后每日测一次高度。我们第一个观察到的现象是人长高,树也长高。这时候我们的第一个问题是:这种现象是随机的,还是非随机的?为了解答这个问题,我们首先可以观察更多的数据,通过统计学方法,明确到这种现象是有统计学意义的,即“非随机现象”。随后就要讨论,这个现象是否存在有因果关系,这时候我们可以从:时间关系、关联强度、可重复性、分布一致性、合理性、终止效应、特异性等方面来讨论。时间关系:这个很好理解,就是“因”必然要在“果”之前。关联强度:是指两个现象相关,那么它的相关程度有多大,描述关联强度的有:决定系数R?,
OR,RR值等可重复性:就是说你认为这两者有因果关系,那么是不是每次因出现都能有果,或者每次果之前都有因,是否可以重复。分布一致性:是指“因”的分布和“果”的分布是否一致,例如说A地吸烟率高,那么A地的肺癌发生率是否也高,两者分布是否一致。合理性:是指这种因果在科学上能否得到合理的解释,例如抽烟导致肺癌发生的机制已经很明确,那这就是抽烟导致肺癌的合理性。终止效应:到“因”被终止后,果是不是会消失或减少。例如戒烟能降低肺癌发病率。特异性:这个不太好说,现在好像也都不怎么提,我要不太懂,看有没有大神能帮我解惑一下。因果关系的确定的确不容易,如果大家都能认识到“相关关系”不等以“因果关系”我敢保证微信微博上的那些什么“7岁男孩每天和饮料致白血病”这类的新闻会少很多。
这绝对是一个好问题啊,社会科学研究的最大问题,不就是难以识别因果关系么?前面四个答主的回答都很好,我也来凑个热闹,纯属抛砖引玉了。Junyi Hou说的方法应该属于“新进展”,但肯定不是属于主流方法。如果题主是要做社会科学的实证研究,而不是做理论研究,那了解下当前主流的方法可能更实际,更有用。题主如果翻看主流的经济学、社会学期刊,里面做实证研究,特别是政策评估研究的,基本用的都是下面几个方法。最简单的因果识别方法,当属普通最小二乘OLS。通过多元回归,控制其他变量,了解某两个变量的关系。国内经济学、社会学的实证研究,基本都是用OLS。要添花样的话,可以用GLS,非线性OLS。对于做微观应用计量的,离散选择模型也用的很多,logit, probit是各类期刊的常客。总之,OLS是最基础的,后面的其他方法,很多都是在它上面做改进。如果要刻意针对“因果识别”采取些纠正措施,那么下面几个方法是最常用的。1. 实验。natural experiment, field experiement, lab experiment比如,field experiment就是随机招募被试人群进入控制组和其他任务组,比较组别的实验结果。lab experiment顾名思义,就是在实验室里做的,商学院里研究组织行为的经常用这个方法。实验法的好处就是刻意控制干扰变量,但很多时候不具备可操作性,社会科学很多问题没法做实验啊。2. Difference in Difference, DID,差分再差分这算是因果识别里最常用的方法了吧,panel data, time series里都会用到,翻看社会科学里政策评估主题的文章,十篇是可能有一半是panel data+DID的。3. 工具变量IV和2SLS这也是解决内生性问题(典型的是回归方程中遗漏变量的问题,以及反向因果的问题)最常用的方法之一。举个例子,大家都知道制度可能影响经济发展,但是如何用实证方法证明呢?有学者研究了曾经是殖民地的地区,用“殖民者的死亡率”做工具变量,研究制度和经济发展的关系。他的逻辑是:欧洲殖民者来到一个地方,如果这个地方环境好,那么殖民者就会从长计议,把本国的“先进”制度引进过来,搞好“制度建设”;但是如果殖民者来了之后,发现环境恶劣,自己先死了一大半,肯定就不想长远待着,那么他们就倾向于快速“掠夺”地区资源,而忽视“制度建设”。百年之后,“制度建设”型地区和“短期掠夺”型地区经济发展程度明显不同。那个学者把“殖民者的死亡率”和“人均GDP”一回归,发现果然殖民者死的多的地区,人均GDP就越低!为什么呢?只能是因为殖民者死亡率和制度建设有关系,而制度建设又影响了后来的经济发展。工具变量的最大问题就是,找到一个好的工具变量太难了。工具变量需要若干假定,而这些假定是很难都成立的。比如上面的例子,有人质疑,殖民者死亡率之所以影响经济发展,是因为地理和气候原因!殖民者死的多,是因为地方不适宜人居住啊,鸟都不拉屎的地儿肯定经济发展不好啊,和制度没关系啊。于是就争起来了。。。(那篇文章还是发表在经济学TOP期刊《American Economic Review》上的,引用率超高,不过不少都是去反对他的)4. regression discountinuity,翻译成中文叫断点回归,有模糊断点和清晰断点回归。我看有知友解释了,很全面,我就不重复了。断点回归在经济学和社会学里面用的也很多,不过也有其局限性。比如,如果有多个混淆变量都有“中断”,那么就不容易知道,到底是什么造成了因变量取值的不同。5. 倾向值匹配这也是2000年之后用的很多的方法。它的思路很简单,就是找到“相似”的对照组和控制组成员,然后再进行比较。用这个方法,先预测倾向值(列出所有可能的混淆变量,用logit/probit预测混淆变量对因变量的影响概率),再用倾向值进行匹配,最后基于匹配样本进行因果系数估计。但是倾向值方法的劣势也很明显,比如我们不可能找到所有的混淆变量,比如它不能很好地解决交互作用问题等等。
最后,不同学科对于这些因果识别方法的运用频率,似乎也有不同。比如,工具变量在经济学里面用的很多,但是似乎社会学就用的少一些,其原因不仅来自研究问题的差异,也和学科间基本思维方式的差异有关。无论如何,方法是为问题服务的,方法是基于理论框架的。对于做实证研究的,自己研究领域内top期刊的论文,对自己肯定是最有借鉴意义的。
尝试回答一下。在社会学领域,目前实证研究比较火的主要因果识别理论就是倾向值匹配(PSM,propensity score matching)方法吧,按照Morgan & Winship(2007)书中归纳,“倾向值匹配”方法广义来看包括IV啊,DID,断点回归什么的~据说这个在国外已经火了十几年,搜causal effect能搜到好多论文把,统计系啊,经济系啊,社会学系什么的都有人在做。。。最近才在国内开始火起来……胡安宁(2012)写过一篇倾向值匹配方法的研究综述;他本人2014年发表的一篇文章也应用了该方法(广义倾向值匹配)去修正教育的回报,参见胡安宁(2014)。陈云松(2012)发表的《农民工收入与村庄网络:基于多重模型识别策略的因果效应分析》讨论了社会网络对农民工工资是否产生影响的问题;张春泥和谢宇(2013)发表的《同乡的力量》也适用了多种倾向值匹配的方法去估计network对于老乡找工作的净影响;郑冰岛和吴晓刚(2013)关于“农转非”问题的研究也使用这一方法……一般来说,社会学在因果识别的方法主要包括实验方法和准实验方法,“random experiment”是研究的黄金准则嘛(Fisher语)~可是一般很难实现纯随机的干预,因而社会学者更多使用准实验方法去估计某类干预的净影响,PSM就是其中重要一类方法。而且我本人不懂实验方法,不能妄加评论。按照我的理解呢,倾向值理论有两派人在搞,一类是统计学家,主要从SUTVA()假设和Random Assignment(随机分配)假设出发,认为干预不随着个体、时间、干预的前后而发生变化,这类假设太强以至于很难在社会学中直接应用;另一类是计量经济学家,他们的IV啊,DID啊,Heckman 2SLS啊什么的,这类方法实际使用的就比较多了。具体的操作主要包括两个步骤,一计算倾向值(匹配),二是计算平均干预效应(ATE,ATT之类的)。就是在匹配之前是跑一个logistic回归计算倾向值p呢,还是算一些很有趣的距离(如Mahalanobis distance)去衡量个案之间的相似程度呢。。。具体而言不同的学者根据优化/“缺失数据”填补的逻辑去做,创造了一大堆方法,如optimal matching什么的,不过本人学的很渣,没办法系统地介绍更多了。如果题主想简单了解一下反事实框架和因果推断不妨参考谢宇(2010)《回归分析》一书p162-169;或者谢宇(2012)《社会学方法与定量研究》(第二版)中因果推论的相关章节。系统性的读物包括当今计量真神Angrist和Pischke(2008),Morgan & Winship(2007),郭申阳和弗雷泽(2012)关于倾向值匹配的书咯~其中第一本和第三本有中译本,第二本目前还没有中译本。不过老板说得对,统计其实不能帮助我们真正意义上解决因果关系的方向问题,很多时候都没法回避来自reverse causality的批评(类似收入决定健康还是健康决定收入这样的问题),而这因果关系的识别仍然要依赖“理论”的发展。参考文献Angrist J D, Pischke J S. Mostly harmless econometrics: An empiricist's companion[M]. Princeton university press, 2008.Morgan S L, Winship C. Counterfactuals and Causal Inference: Methods and Principles for Social Research[M]. Cambridge University Press, 2007.陈云松. 农民工收入与村庄网络: 基于多重模型识别策略的因果效应分析[J]. 社会, ): 68-92.胡安宁. 倾向值匹配与因果推论: 方法论述评[J]. 社会学研究, 1-242.胡安宁. 教育能否让我们更健康——基于 2010 年中国综合社会调查的城乡比较分析[J]. 中国社会科学, 2014 (5): 116-130.郭申阳, 弗雷泽. 倾向值分析: 统计方法与应用[M]. 郭志刚, 巫锡炜译. 重庆大学出版社. 2012.谢宇. 回归分析[M]. 社会科学文献出版社. 2010.谢宇. 社会学方法与定量研究(第二版) [M].北京: 社会科学文献出版社. 2012. 张春泥, 谢宇. 同乡的力量: 同乡聚集对农民工工资收入的影响[J]. 社会, ): 113-135.郑冰岛, 吴晓刚. 户口,“农转非” 与中国城市居民中的收入不平等[J]. 社会学研究, 2013 (1): 160-181.先写这么多,留待以后补充==
对这个问题非常感兴趣,借此机会,整理了下之前零散的笔记并搜集了一些新的资料,当做是一次复习和沉淀。社会科学因果推断中面临的一个重要挑战就是:相关不等于因果(也被称为内生性问题)。也就是说,A与B相关,并不能说A导致B。也有可能是B导致A,或者A与B之外的第三个变量C既影响A也影响B,从而导致A与B的共同变化。有一个有趣的例子,即雪糕的销量和淹死的人呈显著正相关,即雪糕销量越高,淹死的人就越多。但我们不能断言说雪糕销量导致人们被淹死。事实上,这是由于二者都发生在夏天造成的。解决这一问题的方法有很多,大致可以分为两种类型,一种是从数据收集出发,通过一定的研究程序来进行因果推断,如实验法,但社会科学中的很多主题和领域没法使用实验法,这就引出了第二种类型:从数据分析出发,通过一定的统计方法来推断因果(主要针对调查数据)。实验法(experimental method)实验法是社会科学尤其是心理学研究中进行因果推断的重要方法。大部分心理学研究都会选择实验法,因为它能帮助研究得出因果结论。在心理学研究中,实验法甚至被称作解释因果关系的唯一方法。在这种方法中,研究者会将实验参与者随机分配到不同情境中(通常是一个实验组和一个控制组),并确保这些情境除了自变量(研究者认为会对人们的行为产生影响的变量)之外,其他的条件完全一致。这样,我们就有理由相信,不同情境下因变量的差异是由自变量造成的。为了更为直观地理解,这里介绍一个社会心理学当中的经典实验:最简群体范式(tajfel et al., 1971; billing & tajfel, 1973)。在tajfel的实验里,实验参与者是被随机分配到两个不同的群体中(随机分配是控制混淆变量的重要手段,即保证不同情境下除了自变量之外其他条件完全一致)。在一个实验中划分的依据是他们声称的艺术偏好:Klee的画和Kandinsky的画,更喜欢哪个?在另一个实验中,通过投硬币来把实验参与者划分到两个群体中。每组成员实际上从没有见过彼此,也没有见过对方组的成员,所以两组里的人都不认识,没有任何形成内群体或外群体刻板印象的基础,这也是“最简群体”这一名称的由来。最后,tajfel和他的同事让群体成员在内群体和外群体间分配奖励(最多15分)。结果发现,分给自己组的明显多于对方组的。这被称为“最简群体范式”。交叉滞后相关(cross-lagged-panel correlation)先上图。埃龙及其同事(Eron,et al.,1972)在一项对同一组儿童进行了为期十年的追踪研究中使用了该方法。上图简要地说明了他们的研究结果。在十三年级的学生中,对暴力性电视节目的爱好与攻击性之间的相关系数基本接近于零(r=-0.05)。同样,他们也发现,三年级与十三年级对暴力性电视节目的爱好之间的相关(r=+0.05)可忽略不计。但他们在两个年级的攻击性上却获得了中等程度的相关(r=+0.38),这说明攻击性是一种相对稳定的特质。在评估因果关系的方向时,最有趣的发现就是交叉—滞后相关(即图中沿对角线所表示的两个变量间的相关)。如果我们要问,到底是有攻击性特质的人喜欢观看暴力性电视节目还是观看暴力性电视节目导致了攻击性呢?在这种方法中,只要通过检查对角线相关,就可以确定哪一种假设更适宜。三年级的攻击性与十三年级对暴力性电视节目的爱好之间基本上没有关系(r=+0.01)。然而,三年级对暴力性电视节目爱好与十三年级的攻击性之间却存在着相当显著的相关(r=+0.31)。事实上,与早期被试在三年级时对同样两个变量所进行的研究相比,这一相关系数要大得多。因此,因果关系的方向看起来似乎是,三年级时喜欢看暴力性电视节目导致了后来的攻击行为。断点回归(Regression Discontinuity,RD)基本的断点回归设计是一种前测后测的两组设计。前测后测是指在处理前后施以同样的测量(实际上RD设计并不要求前后测的测量一致)。然后,我们将根据前测的断点值分配不同的人或与处理相关的其他分析单位(如家庭、学校、医院、国家)到不同的组。两组是指处理组和控制组或两个不同处理组。为便于直观理解,图示如下:C代表根据前测断点分数分配的不同组;O代表前测;X表示实验处理或干预;上行代表实验组,下行是控制组。慢!听起来怎么有点像实验法。断点回归与实验法的区别在于分配被试的方式不同:断点回归是根据前测的断点值(cutoff value)来分配被试的,而实验法是随机分配的。接下来进入具体实例。假设有一个研究想要检验一种新的治疗方案对住院病人的有效性。假设有一种健康诊断,从1到100赋值,分数越高,健康程度越高。然后,我们以50分为分配标准,小于50分的人施以新的治疗方案,大于等于50分的人施以常规治疗。下图描述了假设所有人都没有接受新的治疗方案的前后测的双变量分布。蓝X表示断点左侧的个案,他们在前后测中都是病的最严重的人。绿O代表相对来说更为健康的比较组,他们在前后测的表现都比较好。穿过双变量分布的实线是回归线,显示出前后测有很高的线性相关。现在让我们想象实验组(断点值以下的个案)施以新治疗方案且存在积极影响的结果。为简单起见,我们假设新治疗方案对所有人的效果是一样的,都将提高10分的健康分数。如下图:移去所有数据点,仅留下回归线,得到下图:观察图3,我们很容易想到断点回归这一名字的由来。如果有治疗效果,我们会在断点附近观察到回归线的“跳跃”或“不连续”:工具变量(instrumental variable)工具变量是社会科学中基于调查数据进行因果推断的一种前沿方法。社会科学因果推断中面临的一个挑战就是:内生性问题(endogeneity)。也就是说,某个潜在的、无法观测的干扰项既影响因又影响果,导致无法做出因果推断(相关不等于因果)。例如,我们想研究家庭中的孩子数是否会影响母亲的就业,但由于生育孩子数量是可以选择的,因此解释变量存在内生性问题。工具变量就是解决上述内生性问题的重要手段。工具变量的原理最早是由Philip G. Wright在上世纪20年代末提出的。首先,我们给出一个典型的线性回归模型:x1是自变量,或者解释变量,即因,y是因变量,即果。大写的X是外生控制变量。e是误差项。如果有一个重要变量x2被模型(1)忽略了,且x1和x2相关,那么对B1的估计就是有偏估计。此时,被称作内生的解释变量,也即前面所说的内生性问题。要解决内生性问题,我们需要引入更多信息。工具变量的方法引入了一个外生变量Z,且Z必须满足以下两个条件:与e不相关,但与x1相关。或者说,Z仅仅通过影响x1来影响y。即:由方程(1)可以推导出:在根据方程(2)和X是外生控制变量的假设,可以得到:进而对进行无偏估计:方程(3)里的B1就是引入工具变量后的无偏估计量。谈完数学模型,再来谈工具变量的基本思想。工具变量Z在模型外,是完全外生的,其只能通过影响自变量x1而间接影响因变量y。如果Z和自变量x1密切相关,那么,只要Z有了变化,就必然会对自变量x1产生来自模型外的影响。如果自变量x1和因变量y之间真的存在因果关系,那么Z对x1的影响也必然会传递到因变量y。最终,如果Z对y的间接影响能够被统计证明是显著的,那么我们就可以推断出自变量对因变量y存在因果关系。附上陈云松老师在其论文中的图示:回到孩子数量影响母亲就业的例子。为了解决内生性问题,研究者巧妙地挖掘了人类生育行为中偏好有儿有女的特征,将子女老大和老二的性别组合作为工具变量。理由是:头两胎如果是双子或双女,那么生育第三胎的可能性大大增加,进而增加子女数。而子女性别是完全随机的,与母亲就业没有任何关系。为了加深理解,这里再谈谈之前关注到的《Science》上的一篇心理学论文。弗吉尼亚大学的Thahelm及其合作者假设,中国南北方不同农作物的种植(水稻和小麦)会影响区域间的文化差异。简单来讲,水稻种植在灌溉和劳动力方面需要更多的协调和合作,因此相比种植小麦的北方,人们会表现出更多的集体主义倾向。通过调查统计发现,“水稻假说”能够很好地拟合研究中的数据。但我们不能说水稻假说就是导致南北方文化差异的原因,因为南北方除了种植作物不同外,还存在许多其他差异。为了进行因果推断,研究者使用了工具变量法。也就是说,研究者要找到一个变量,这一变量只能够通过影响自变量“种植水稻/小麦”的概率来影响南北方文化差异,而与其他不可观测的影响文化的因素无关(与误差项无关)。研究者找到的工具变量是“当地环境是否适宜种植水稻”,理由是:这一变量是自然环境决定的,不可以认为选择,是随机的、外生的。当然,这一变量是否只能通过影响农作物种植来影响文化还存在一定的疑问,但不在这里的讨论范围内。参考文献:逻辑、想象和诠释: 工具变量在社会科学因果推断中的应用政见:“南稻北麦”真的导致了文化差异吗?Talhelm, T., Zhang, X., Oishi, S., Shimin, C., Duan, D., Lan, X.,; Kitayama, S. (2014). Large-Scale Psychological Differences Within China Explained by Rice Versus Wheat Agriculture. Science, 344(6184), 603-608.
这个问题很好推荐一本书:Morgan, S.L., Handbook of Causal Analysis for Social Research.
2013: Springer Netherlands.
Dennis Wang:
没人提Bayesian Network?
Julian Zhu:
Granger Causality是经典方法,在计量经济学的时间序列分析中有较多的应用。除此之外,还有 (CCM)。Granger因果模型的前提假设是事件是完全随机的,但现实情况有很多是非线性、动态且非随机的,Granger模型对这一类状况不适用。CCM则能适用于这一类场景,在多组时间序列中构建出因果网络。感兴趣的可以读一下这篇发表在Science上的文章:
先表达下对已有答案的观点:那个Granger Causality的答案是混淆了概念。 的答案很赞。题外话,sufficient statistics作为降维在bayes sampling中的应用可以参见最近的下面是我要介绍的,敬请各路大神斧正:注:貌似我的答案也跑偏了,题主问的是identification,我答的是estimation----------------------------------------------------------------------------------------Regression Discontinuity (RD)RD最早在1960年由 and
引入。兴起于90年代。最近的应用可以参见Harrison Hong 大神的这篇应用Fuzzy RD 研究indexing effect的文章(发表在Review of Financial Studies):RD的参考资料推荐这一篇:wiki上面对RD的介绍:a regression discontinuity design (RDD) is a quasi-experimental pretest-posttest design that elicits the causal effects of interventions by assigning a cutoff or threshold above or below which an intervention is assigned.RD是需满足以下三个假设条件:1. Treatment是assignment variable的非连续函数(存在cutoff);2. 其他的因子关于assignment是连续的;3. assignment无法被manipulate precisely。结合这一篇中的例子:Russell Index 选取的是美国股市最大的4000家公司股票,排序(rank)是基于每年五月底的market capitalization,前1000家进入Russell 1000 (cutoff at 1000), 组成Russell 2000.以Russell 1000 index 为例,我们可以认为在排名1000 附近的一定范围的公司,他们是否进入Russell 1000是随机 (比如,股价的波动存在随机性,导致五月底的market cap存在一定随机性)。那么Russell Index (treatment)的效果可以通过比较排名大于1000名(1000-h)的一定范围内的公司股票和排名小于1000名(1000+h)的一定范围内的公司股票来估算。如下图所示:y轴是六月份的回报率,x轴是五月底的market capitalization的排名。红线左边是最终进入Russell 1000的;右边是最终进入Russell 2000的。图中的蓝点所代表的公司原本是在Russell 1000的。通过比较走右边两组end of may rank和end of june return的不同关系(绿线所示),我们可以看出进入Russell 2000对公司股票6月份的回报率有所提升。这个casual effect可以通过2SLS估算,具体参见y轴是六月份的回报率,x轴是五月底的market capitalization的排名。红线左边是最终进入Russell 1000的;右边是最终进入Russell 2000的。图中的蓝点所代表的公司原本是在Russell 1000的。通过比较走右边两组end of may rank和end of june return的不同关系(绿线所示),我们可以看出进入Russell 2000对公司股票6月份的回报率有所提升。这个casual effect可以通过2SLS估算,具体参见一文。
因果推断有两大框架,以 Rubin 等人发展出的 Potential Outcome 模型和 Pearl 等人发展出来的以因果贝叶斯网络(一种图模型)来给因果关系建模的方法。似乎没人提到因果贝叶斯网络方法的发展,而我最近看到了一些相关的文章,稍微介绍一下好了。Judea Pearl 的方法基本上在 2000 年出的 Causality 一书里面已经成型了,2009 年出了第二版。当然,相关的方法还在不断发展中。最近我看到的发展有:1. 做出了将以反事实方式定义的因果在图模型上表示的方法2. 将缺失值问题作为因果问题进行建模我就只知道这么多了。正在学习中。
看到前面那么多回答,简直惊呆了!我只想说,证明因果关系必须先证明相关关系。而对于社会研究来说,判断相关关系存在与真实都是个很难的问题。
首先说我最不擅长的宏观计量。宏观方面,最popular的概念应该是格兰杰因果了。但是,相信大家都听说过,格兰杰因果不是真的因果。格兰杰意义上的因果仅仅是看滞后的变量能不能预测当期的变量,这里面问题就很多了。在这一领域,传统的方法是VAR,以及相应的VECM等,格兰杰因果也是在这个框架里面的东西。但是如果真的想要识别因果,特别是有当期影响的时候,就需要用SVAR了。微观计量呢?微观计量的因果识别好玩的多。结构和简约两个门派总在相互竞争中不断发展新的想法。两者的区别在于,结构模型有有力的理论模型作为支撑,目的是估计模型的结构参数。而简约派则是避开复杂的经济理论建模和结构参数的估计,通过使用自然实验、工具变量等方法直接找到想要的参数(这个有点像唯识宗给你丝丝分析宇宙人生,而禅宗则是明心见性,直指人心)。
免责声明:本站部分内容、图片、文字、视频等来自于互联网,仅供大家学习与交流。相关内容如涉嫌侵犯您的知识产权或其他合法权益,请向本站发送有效通知,我们会及时处理。反馈邮箱&&&&。
学生服务号
在线咨询,奖学金返现,名师点评,等你来互动}

我要回帖

更多关于 社会科学研究方法论 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信