统计中的 Bootstrap 统计方法是指指什么

Bootstrap方法及其应用_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
Bootstrap方法及其应用
阅读已结束,下载文档到电脑
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩3页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢扫二维码下载作业帮
2亿+学生的选择
下载作业帮安装包
扫二维码下载作业帮
2亿+学生的选择
统计中的 Bootstrap 方法是指什么
扫二维码下载作业帮
2亿+学生的选择
比如现在有一个分布F...1. Bootstrap: 如果我无法知道F的确切分布,手上仅有一组从F中iid抽样的样本(X_1, ..., X_n),我想检验“F的均值是否为0”.看起来这个不可能,因为我只有一个\bar{X}的点估计,而并不知道\bar{X}的分布.Bootstrap的魔术是现在我把(X_1, ..., X_n)这个样本当做总体,从中(有放回地)重新抽样,重抽样样本大小仍为n,那么每一次重抽样就可以得到一个“样本均值”,不断地重抽样我就得到了一个\bar{X}的“分布”.这样接下来我就可以构造confidence interval并做检验了.虽然实践中bootstrap的重抽样步骤都是用Monte Carlo方法来模拟重抽样样本统计量的分布,但是严格地说这个分布原则上可以精确计算.而如果待估统计量比较简单,bootstrap的结果有时甚至可以直接用(X_1, ..., X_n)的某种统计量表示出来,从而并不需要真正地“重抽样”.
为您推荐:
其他类似问题
扫描下载二维码经济统计学大三在读,学过数据挖掘,应用回归分析,时间序列分析和计量经济学的课。推荐两本可以自学数据挖掘和R的书:《数据挖掘:R语言实战》和《An_Introduction_to_Statistical_Learning_with_Applications_in_R6th2015》(一)自助法(bootstrap)自助法(bootstrap)是常用的重抽样方法,用来衡量一个指定的估计量或统计学习方法中的不确定的因素,通过反复地从原始数据集中有放回地抽取观测得到数据集。自助法可以用来估计一个线性回归拟合模型的系数的标准误差,在线性回归的情况下,自助法可能不是特别有用,标准的统计软件如R会自动输出标准误差的结果,但自助法的强大体现在可以简便地应用于很多统计学习方法中去,包括一些对波动性的测量指标要么很难获得,要么不会由统计软件自动输出的方法。(1)在R中估计线性回归模型的精度,用自助法衡量估计和预测的系数的波动性。下面基于Auto数据集,用horsepower来预测mpg的线性模型的截距和斜率项,衡量截距和斜率的估计的波动性。先输入Auto数据集和观测序号的集合,然后返回线性回归模型的截距和斜率的估计,&install.packages(ISLR)&library(ISLR)&attach(Auto)&boot.fn=function(data,index)return(coef(lm(mpg~horsepower,data=data,subset=index)))将函数用于全部392个观测,&boot.fn(Auto,1:392)(Intercept) horsepower
39..1578447 boot.fn()还可以通过随机有放回地从观测里抽样,来产生对截距和斜率项的自助法估计,&set.seed(1)&boot.fn(Auto,sample(392,392,replace=T))(Intercept) horsepower
38..1481952&boot.fn(Auto,sample(392,392,replace=T))(Intercept) horsepower
40..1596104用boot()函数计算1000个截距和斜率项的自助法估计的标准误差,&install.packages(boot)&library(boot)&boot(Auto,boot.fn,1000)ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = Auto, statistic = boot.fn, R =1000)Bootstrap Statistics :
std. errort1* 39.. 0.t2* -0.. 0. 这表明截距估计值的标准差的自助法估计是0.86,斜率估计值的标准差的自助法估计是0.0047,可通过summary()函数得到回归系数的标准误差,&summary(lm(mpg~horsepower,data=Auto))$coef
Std. Error
Pr(&|t|)(Intercept) 39..
55.362e-187horsepower -0.. -24.989e-81可知截距估计值的标准误差为0.717,斜率估计值的标准误差为0.0064,这与自助法得到的估计有所差别。线性回归模型的标准公式依赖于未知参数噪声方差,然后用RSS来估计噪声方差。尽管标准误差公式不依赖于线性模型是正确的,但噪声方差的估计却依赖于线性模型的正确性。当数据存在非线性的关系时,用线性拟合所得到的残差和噪声方差的估计值都被放大了。其次,标准公式假定自变量x(i=1,2...n)是固定的,所有的波动性都是由误差波动产生的。而自助法并不依赖于这些假设,所以相对于summary()函数,对截距的估计值和斜率的估计值的标准误差估计将更加准确。下面对数据拟合二次模型所得到的标准线性回归系数的估计和标准误差进行自助法估计,发现这个模型的自助法估计和标准估计更加接近。&boot.fn=function(data,index)coefficients(lm(mpg~horsepower+I(horsepower^2),data=data,subset=index))
&set.seed(1)&boot(Auto,boot.fn,1000)ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = Auto, statistic = boot.fn, R =1000)Bootstrap Statistics :
std. errort1* 56.
6. 2.t2* -0. -1. 0.t3* 0.
1.0.&summary(lm(mpg~horsepower+I(horsepower^2),data=Auto))$coef
Std. Error
Pr(&|t|)(Intercept)
31.911e-109horsepower
-0.. -14.9429e-40I(horsepower^2)
10.340e-21 (2)自助法也可以在SPSS中应用 (二)蒙特卡罗(Monte Carlo)蒙特卡罗(Monte Carlo)方法:又叫计算机随机模拟方法,随机抽样方法或统计试验方法。Monte Carlo方法的核心是随机抽样,包括简单随机抽样和重要随机抽样。基于随机数的应用,不仅限于模拟随机性问题,还可以解决确定性的数学问题。对于随机性问题,可以根据实际问题的概率法则,直接进行随机抽样试验,即直接模拟方法。对于确定性问题,采用间接模拟方法,即通过统计分析随机抽样的结果获得确定性问题的解。当所求解问题是某种随机事件出现的概率,或者是某个随机变量的期望值时,通过某种“实验”的方法,以这种事件出现的频率估计这一随机事件的概率,或者得到这个随机变量的某些数字特征,并将其作为问题的解。主要步骤:(1)
构造或描述概率过程(2)
实现从已知概率分布抽样(3)
建立估计量Monte Carlo方法主要特征:(1)
Monte Carlo通过大量重复抽样实现的,方法和程序结构较简单(2)
收敛速度比较慢,较适用于求解精度要求不高的问题(3)
收敛速度与问题的维数无关,较适用于求解多维问题(4)
问题求解过程取决于所构造的概率模型,受问题条件限制影响较小 附:自助法在R中应用分析时不能输入公式,以下截图是补充说明。经济统计学大三在读,学过数据挖掘,应用回归分析,时间序列分析和计量经济学的课。推荐两本可以自学数据挖掘和R的书:《数据挖掘:R语言实战》和《An_Introduction_to_Statistical_Learning_with_Applications_in_R6th2015》(一)自助法(bootstrap)自助法(bootstrap)是常用的重抽样方法,用来衡量一个指定的估计量或统计学习方法中的不确定的因素,通过反复地从原始数据集中有放回地抽取观测得到数据集。自助法可以用来估计一个线性回归拟合模型的系数的标准误差,在线性回归的情况下,自助法可能不是特别有用,标准的统计软件如R会自动输出标准误差的结果,但自助法的强大体现在可以简便地应用于很多统计学习方法中去,包括一些对波动性的测量指标要么很难获得,要么不会由统计软件自动输出的方法。(1)在R中估计线性回归模型的精度,用自助法衡量估计和预测的系数的波动性。下面基于Auto数据集,用horsepower来预测mpg的线性模型的截距和斜率项,衡量截距和斜率的估计的波动性。先输入Auto数据集和观测序号的集合,然后返回线性回归模型的截距和斜率的估计,&install.packages(ISLR)&library(ISLR)&attach(Auto)&boot.fn=function(data,index)return(coef(lm(mpg~horsepower,data=data,subset=index)))将函数用于全部392个观测,&boot.fn(Auto,1:392)(Intercept) horsepower
39..1578447 boot.fn()还可以通过随机有放回地从观测里抽样,来产生对截距和斜率项的自助法估计,&set.seed(1)&boot.fn(Auto,sample(392,392,replace=T))(Intercept) horsepower
38..1481952&boot.fn(Auto,sample(392,392,replace=T))(Intercept) horsepower
40..1596104用boot()函数计算1000个截距和斜率项的自助法估计的标准误差,&install.packages(boot)&library(boot)&boot(Auto,boot.fn,1000)ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = Auto, statistic = boot.fn, R =1000)Bootstrap Statistics :
std. errort1* 39.. 0.t2* -0.. 0. 这表明截距估计值的标准差的自助法估计是0.86,斜率估计值的标准差的自助法估计是0.0047,可通过summary()函数得到回归系数的标准误差,&summary(lm(mpg~horsepower,data=Auto))$coef
Std. Error
Pr(&|t|)(Intercept) 39..
55.362e-187horsepower -0.. -24.989e-81可知截距估计值的标准误差为0.717,斜率估计值的标准误差为0.0064,这与自助法得到的估计有所差别。线性回归模型的标准公式依赖于未知参数噪声方差,然后用RSS来估计噪声方差。尽管标准误差公式不依赖于线性模型是正确的,但噪声方差的估计却依赖于线性模型的正确性。当数据存在非线性的关系时,用线性拟合所得到的残差和噪声方差的估计值都被放大了。其次,标准公式假定自变量x(i=1,2...n)是固定的,所有的波动性都是由误差波动产生的。而自助法并不依赖于这些假设,所以相对于summary()函数,对截距的估计值和斜率的估计值的标准误差估计将更加准确。下面对数据拟合二次模型所得到的标准线性回归系数的估计和标准误差进行自助法估计,发现这个模型的自助法估计和标准估计更加接近。&boot.fn=function(data,index)coefficients(lm(mpg~horsepower+I(horsepower^2),data=data,subset=index))
&set.seed(1)&boot(Auto,boot.fn,1000)ORDINARY NONPARAMETRIC BOOTSTRAPCall:boot(data = Auto, statistic = boot.fn, R =1000)Bootstrap Statistics :
std. errort1* 56.
6. 2.t2* -0. -1. 0.t3* 0.
1.0.&summary(lm(mpg~horsepower+I(horsepower^2),data=Auto))$coef
Std. Error
Pr(&|t|)(Intercept)
31.911e-109horsepower
-0.. -14.9429e-40I(horsepower^2)
10.340e-21 (2)自助法也可以在SPSS中应用 (二)蒙特卡罗(Monte Carlo)蒙特卡罗(Monte Carlo)方法:又叫计算机随机模拟方法,随机抽样方法或统计试验方法。Monte Carlo方法的核心是随机抽样,包括简单随机抽样和重要随机抽样。基于随机数的应用,不仅限于模拟随机性问题,还可以解决确定性的数学问题。对于随机性问题,可以根据实际问题的概率法则,直接进行随机抽样试验,即直接模拟方法。对于确定性问题,采用间接模拟方法,即通过统计分析随机抽样的结果获得确定性问题的解。当所求解问题是某种随机事件出现的概率,或者是某个随机变量的期望值时,通过某种“实验”的方法,以这种事件出现的频率估计这一随机事件的概率,或者得到这个随机变量的某些数字特征,并将其作为问题的解。主要步骤:(1)
构造或描述概率过程(2)
实现从已知概率分布抽样(3)
建立估计量Monte Carlo方法主要特征:(1)
Monte Carlo通过大量重复抽样实现的,方法和程序结构较简单(2)
收敛速度比较慢,较适用于求解精度要求不高的问题(3)
收敛速度与问题的维数无关,较适用于求解多维问题(4)
问题求解过程取决于所构造的概率模型,受问题条件限制影响较小 附:自助法在R中应用分析时不能输入公式,以下截图是补充说明。Bootstrap的中文翻译是“自助法”,由后来成为斯坦福统计系主任的Bradley Efron在70年代提出。中心思想是通过从样本中重抽样(resample是这么翻的么?),构建某个估计的置信区间。抽象的说,通过样本得到的估计并没有榨干样本中的信息,bootstrap利用重抽样,把剩余价值发挥在了构建置信区间上。
Bootstrap因为其通用性的和简便性而被广泛使用(只要有样本就可以resampling,就可以bootsrap,任何分布都能做,只是消耗一些计算资源)。特别是在各种统计(机器)学习算法大大复杂了“估计”,bootstrap的实用性太明显了。
至于Bootstrap和Monte Carlo有什么联系与区别,这两个本身不是对应的概念,怎么个区别法呢?Bootstrap在重抽样的时候,一般采用sample with replacement而不是穷尽所有组合,也可以认为用到了Monte Carlo吧。
详情的话,还是看Efron&Tibshirani那本An Intro to Bootstrap,没有更好的参考了。Bootstrap的中文翻译是“自助法”,由后来成为斯坦福统计系主任的Bradley Efron在70年代提出。中心思想是通过从样本中重抽样(resample是这么翻的么?),构建某个估计的置信区间。抽象的说,通过样本得到的估计并没有榨干样本中的信息,bootstrap利用重抽样,把剩余价值发挥在了构建置信区间上。
Bootstrap因为其通用性的和简便性而被广泛使用(只要有样本就可以resampling,就可以bootsrap,任何分布都能做,只是消耗一些计算资源)。特别是在各种统计(机器)学习算法大大复杂了“估计”,bootstrap的实用性太明显了。
至于Bootstrap和Monte Carlo有什么联系与区别,这两个本身不是对应的概念,怎么个区别法呢?Bootstrap在重抽样的时候,一般采用sample with replacement而不是穷尽所有组合,也可以认为用到了Monte Carlo吧。
详情的话,还是看Efron&Tibshirani那本An Intro to Bootstrap,没有更好的参考了。其实很好理解的。&&&&& 先说BoostStrap:我们为什么要用BoostStrap呢,通常我们在构造一个统计量的时候,也会得到它的分布。例如我们在做回归的时候,会得到系数beta1和beta0。由于我们假设残差是正态的,所以我们可以得到beta1和beta0的分布,从而可以样本值的显著程度。&&&& & 但是如果我们不能确定残差是正态的呢?这时候BoostStrap出来了:用抽样的方法直接构造出一个beta1的分布和beta0的分布。也就是从样本中重复抽样,构造出多个beta1和beta0,也就是{beta11,beta12,beta13,......,beta1n}{beta01,beta02,beta03,......,beta0n},这个的抽样分布如果是小样本选择遍历所有样本子集叫做精确检验,大样本则只抽取部分样本子集叫做置换检验。也就是说,BoostStrap的核心就在于:无法构造统计量分布的情况下,用抽样的方法得到一个统计量分布。&&&& 而蒙特卡咯方法是随机模拟实验,是用统计模拟的方法研究对象。例如著名的蒲丰投针实验。它的核心是随机抽样:比如计算面积s,我们可以先画一个更大的方框面见S1把这个形状框住,再用取随机点的办法计算取到范围内的概率P,s=p*S1。其实很好理解的。&&&&& 先说BoostStrap:我们为什么要用BoostStrap呢,通常我们在构造一个统计量的时候,也会得到它的分布。例如我们在做回归的时候,会得到系数beta1和beta0。由于我们假设残差是正态的,所以我们可以得到beta1和beta0的分布,从而可以样本值的显著程度。&&&& & 但是如果我们不能确定残差是正态的呢?这时候BoostStrap出来了:用抽样的方法直接构造出一个beta1的分布和beta0的分布。也就是从样本中重复抽样,构造出多个beta1和beta0,也就是{beta11,beta12,beta13,......,beta1n}{beta01,beta02,beta03,......,beta0n},这个的抽样分布如果是小样本选择遍历所有样本子集叫做精确检验,大样本则只抽取部分样本子集叫做置换检验。也就是说,BoostStrap的核心就在于:无法构造统计量分布的情况下,用抽样的方法得到一个统计量分布。&&&& 而蒙特卡咯方法是随机模拟实验,是用统计模拟的方法研究对象。例如著名的蒲丰投针实验。它的核心是随机抽样:比如计算面积s,我们可以先画一个更大的方框面见S1把这个形状框住,再用取随机点的办法计算取到范围内的概率P,s=p*S1。
后可以回答该问题
相关标签:
相关标签:
关注我们咨询服务合作法律法规京ICP备号
下载申请方APP
即刻拥有你的学业规划助手统计中的 Bootstrap 方法是指什么?与 Monte Carlo 方法有什么联系与区别?
我的图书馆
统计中的 Bootstrap 方法是指什么?与 Monte Carlo 方法有什么联系与区别?
【JackDiamond的回答(73票)】:风马牛不相及,举个简单的例子(关于一个分布的平均值)来帮你理解bootstrap和Monte Carlo,比如现在有一个分布F...1. Bootstrap: 如果我无法知道F的确切分布,手上仅有一组从F中iid抽样的样本(X_1, ..., X_n),我想检验“F的均值是否为0”。看起来这个不可能,因为我只有一个ar{X}的点估计,而并不知道ar{X}的分布。Bootstrap的魔术是现在我把(X_1, ..., X_n)这个样本当做总体,从中(有放回地)重新抽样,重抽样样本大小仍为n,那么每一次重抽样就可以得到一个“样本均值”,不断地重抽样我就得到了一个ar{X}的“分布”。这样接下来我就可以构造confidence interval并做检验了。虽然实践中bootstrap的重抽样步骤都是用Monte Carlo方法来模拟重抽样样本统计量的分布,但是严格地说这个分布原则上可以精确计算。而如果待估统计量比较简单,bootstrap的结果有时甚至可以直接用(X_1, ..., X_n)的某种统计量表示出来,从而并不需要真正地“重抽样”。当然实际应用中绝大多数时候重抽样分布的解析表达式都会太复杂,所以用模拟代替计算。(关于bootstrap的更多讨论见此答案下的评论,特别是Lee Sam提的问题)2. Monte Carlo: 如果我知道F的确切分布,现在想计算mean(F),但是F的形式太复杂(或者我这人太懒);另一方面我又知道如何从F中抽样,于是就抽一个样本出来,拿样本均值充数。一般来说bootstrap干的事大都跟这个例子中干的事差不多,而Monte Carlo的应用要广泛和多元化得多了。所以两者连“区别”都谈不上,就是两码事。【赵卿元的回答(20票)】:谢邀。Monte Carlo是一个更基础的想法。在很多数学、物理或者工程问题种有很多无法写出closed form的表达式,为了能得到数值上的一个解,需要通过随机采样的方法去估计。Bootstrap是重新改变的一个想法。统计推断的主体总是一个的随机变量分布。在这个分布很复杂无法假设合理的参数模型时,bootstrap提供了一种非参数的推断方法,依靠的是对观测到的样本的重新抽样(resampling),其实是用empirical distribution去近似真正的distribution。这两种方法从目的到用法都完全不同,有联系的话就是都涉及到计算机抽样。============================================================== 觉得“bootstrap是对empirical distribution的monte carlo”的说法更合理,我保留意见。我认为monte carlo和sampling还是不能互为替换的。我认为Monte Carlo和Bootstrap更多的是两种思想,都是基于random sampling去近似某一目标。Monte Carlo的目标一般是一个难以计算的积分,bootstrap的目标一般是统计推断。【马拉轰的回答(6票)】:这个问题又该邀请 了,我先抛砖引玉吧。Bootstrap的中文翻译是“自助法”,由后来成为斯坦福统计系主任的Bradley Efron在70年代提出。中心思想是通过从样本中重抽样(resample是这么翻的么?),构建某个估计的置信区间。抽象的说,通过样本得到的估计并没有榨干样本中的信息,bootstrap利用重抽样,把剩余价值发挥在了构建置信区间上。Bootstrap因为其通用性的和简便性而被广泛使用(只要有样本就可以resampling,就可以bootsrap,任何分布都能做,只是消耗一些计算资源)。特别是在各种统计(机器)学习算法大大复杂了“估计”,bootstrap的实用性太明显了。至于Bootstrap和Monte Carlo有什么联系与区别,这两个本身不是对应的概念,怎么个区别法呢?Bootstrap在重抽样的时候,一般采用sample with replacement而不是穷尽所有组合,也可以认为用到了Monte Carlo吧。详情还是看Efron&Tibshirani那本An Intro to Bootstrap,没有更好的参考了。【EdisonChen的回答(6票)】:来简单讲讲Bootstrap,(Monte Carlo法在中文维基上有了还不错的解答,题主可以参考,)。Bootstrap,即“拔靴法”(不知道翻得对不对),是用小样本来估计大样本的统计方法。举个栗子来说明好了,(我不会贴一个举栗子的图片的放心!)你要统计你们小区里男女比例,可是你全部知道整个小区的人分别是男还是女很麻烦对吧。于是你搬了个板凳坐在小区门口,花了十五分钟去数,准备了200张小纸条,有一个男的走过去,你就拿出一个小纸条写上“M”,有一个女的过去你就写一个“S”。最后你回家以后把200张纸条放在茶几上,随机拿出其中的100张,看看几个M,几个S,你一定觉得这并不能代表整个小区对不对。然后你把这些放回到200张纸条里,再随即抽100张,再做一次统计。…………如此反复10次或者更多次,大约就能代表你们整个小区的男女比例了。你还是觉得不准?没办法,就是因为不能知道准确的样本,所以拿Bootstrap来做模拟而已。【知乎用户的回答(3票)】:bootstrap是对empirical distribution的monte carlo【梁世超的回答(2票)】:parametric vs non-parametricMonte Carlo 对distribution有 assumption 两者都是在simulatebootstrap只要有sample就是可以simulate具体的话还是读书吧 不同model simulate的方法都各不一样【DeniseFan的回答(1票)】:Bootstrap是我们在对一个样本未知的情况下,只能抽取其中一部分数据集,然后对其进行n的反复抽样,来对样本进行点估计什么的。而Mote Carlo则是从simulation的角度出发,当我们对一个distribution已知时,通过一些参数,如均值,方差来对整个distribution进行估计。【JinguoGao的回答(0票)】:Bootstrap是对现有的数据,不断再随机取小的样本,对每个小样处理数据,得到estimator.从而来了解estimator 的variation or distribution.Monte Carlo 是用一个algorithm, 依次输出数组,然后对这些数组处理,得到想要的结果。数组之间的关系由algorithm来决定。Monte Carlo 的概念更广泛。Bootstrap 其实是一种Monte Carlo.通常Monte Carlo 用来求最优解,平衡值等。--- Richard Sperling && wrote:& I would appreciate it if someone could clarify the distinction& between Monte Carlo simulation and the parametric bootstrap. If I'm& not mistaken, one use of Monte Carlo simulation is to assess the& sampling distribution of an estimator. In contrast, the parametric& bootstrap is used to estimate the variance of a statistic and its& sampling distribution.&& But don't both the Monte Carlo method and parametric bootstrap& require specifying a data generating process? It is at this point& where I'm a little confused and fail to see the distinction between& the two methods.&& Also note that I am not talking about the non-parametric bootstrap.In principle both the parametric and the non-parametric bootstrap arespecial cases of Monte Carlo simulations used for a very specificpurpose: estimate some characteristics of the sampling distribution.Remember that the sampling distribution of statistic could be obtainedif we could draw many samples from the population and compute astatistic in each sample. The idea behind the bootstrap is that thesample is an estimate of the population, so an estimate of the samplingdistribution can be obtained by drawing many samples (with replacement)from the observed sample, compute the statistic in each new sample. Incase of the parametric bootstrap you add some extra restrictions whilesampling from the data, but that does not change the point here.Monte Carlo simulations are more general: basically it refers torepeatedly creating random data in some way, do something to thatrandom data, and collect some results. This strategy could be used toestimate some quantity, like in the bootstrap, but also totheoretically investigate some general characteristic of an estimatorwhich is hard to derive analytically.In practice it would be pretty safe to presume that whenever someonespeaks of a Monte Carlo simulation they are talking about a theoreticalinvestigation, e.g. creating random data with no empirical content whatso ever to investigate whether an estimator can recover knowncharacteristics of this random `data', while the (parametric) bootstraprefers to an emprical estimation. The fact that the parametricbootstrap implies a model should not worry you: any empirical estimateis based on a model.Hope this helps,Maarten-----------------------------------------Maarten L. BuisDepartment of Social Research MethodologyVrije Universiteit AmsterdamBoelelaan 10811081 HV AmsterdamThe Netherlandsvisiting address:Buitenveldertselaan 3 (Metropolitan), room Z434-----------------------------------------__________________________________________________________Sent from Yahoo! Mail.A Smarter Email ** For searches and help try:* * * 【知乎用户的回答(0票)】:都是统计模拟方法【TJZhou的回答(0票)】:无法完全认同高票回答。Monte Carlo确实是一个更广泛的想法,而bootstrap过程中确实是用到了Monte Carlo的。我比较赞同的想法“bootstrap是对empirical distribution的monte carlo” 首先看bootstrap的wiki定义In ,bootstrapping can refer to any test or metric that relies on . 它的定义中就包含了“需要重抽样”。高票答案这段话很对:虽然实践中bootstrap的重抽样步骤都是用Monte Carlo方法来模拟重抽样样本统计量的分布,但是严格地说这个分布原则上可以精确计算。而如果待估统计量比较简单,bootstrap的结果有时甚至可以直接用(X_1, ..., X_n)的某种统计量表示出来,从而并不需要真正地“重抽样”。当然实际应用中绝大多数时候重抽样分布的解析表达式都会太复杂,所以用模拟代替计算。 我们需要估计一个统计量,统计量是样本的函数。而关于样本,我们能利用的信息只有样本的empirical distribution。所以当然我们的代估计值可以用empirical distribution表示(本来应该用真实分布表示,但只能用empirical distribution近似)。但是绝大多数时候解析表达式太复杂,所以要用模拟代替计算,而bootstrap肯定是包含这个模拟过程的。高票答案好像是认为把估计值的表达式写出来就算bootstrap了,而和Monte Carlo没关系,这是不对的。如果这样理解,那么贝叶斯的后验估计也应该和Monte Carlo完全没关系了。按这样的思路,贝叶斯就是拿prior和likelihood一乘再一标准化就行了,反正标准化常数也是积分能积出来的,只是有时候很难显式积出来。然后得到后验,就能解析地求出所有待估计值了,虽然大部分情况后验是不知道什么的乱七八糟一堆。MCMC (Markov Chain Monte Carlo) 从后验抽样是可以省去的。但是这样的想法肯定不对。-------------------------------------------------下面基于贝叶斯派的观点来看看Bootstrap。如果大家同意贝叶斯和 Monte Carlo 有紧密联系,那么bootstrap 也应该和 Monte Carlo 有紧密联系。假设我们有独立同分布的样本,样本的分布形式完全不知道,假设它们都是从分布里抽取出来的,按贝叶斯派的观点,应该给未知的赋一个先验。是一个分布,所以常用的先验就是分布的分布:Dirichlet Process那么后验就是当时,此后验趋于empirical distribution。要估计某统计量,此统计量是的函数,不妨记为。我们可以通过从的后验抽样来估计注意这个过程就是 Monte Carlo。而此方法和bootstrap的联系就在于,从的后验中抽得的样本,其形式就是一次bootstrap得到的resample样本的empirical distribution。我们可以通过从的后验中尽可能多地抽样来使估计准确,就像我们在bootstrap中可以尽可能多地resample来使估计准确。从后验中抽样,或是resample(从empirical distribution 抽样),就是Monte Carlo method。【陈无左的回答(0票)】:bootstrap可以看作非参Monte Carlo再次重申非参不是没有参数,非参是无穷维参数空间,是无法想到合适参数模型时的默认模式。bootstrap看作对样本经验分布作随机数生成,产生模拟样本。Monte carlo的解释是依赖随机数生成而产生新样本对其进行模拟。bootstrap完全符合这个定义。
馆藏&68506
TA的推荐TA的最新馆藏
喜欢该文的人也喜欢}

我要回帖

更多关于 统计方法是指 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信