求解统计学原理

作者:萧议
链接:/question//answer/
来源:知乎
著作权归作者所有,转载请联系作者获得授权。
惩罚的核心目的是限制参数空间的大小以降低模型复杂度,惩罚本身反应你对对应的统计问题的某种先验知识(比如回归系数当中应该有很多0啊,回归系数不应该太大啊)
比如n维线性回归中的LASSO和一般的最小二乘回归Least square,前者的回归系数被限制在一个L1意义下的n维球内,而后者的参数空间则是R^n
再比如光滑样条Smooth Spline通过对二阶导数进行惩罚来控制拟合曲线的光滑程度
一些情况下,惩罚有独特的概率上的解释,比如假设正太噪声的线性模型中,LASSO的L1惩罚相当于给回归参数加上了一个Laplace prior,而岭回归Ridge regression中的L2惩罚则对应一般的normal prior
这样的方法在统计中一般叫正则化Regularization,当然也可以叫惩罚Penalization,正则化由Tikhonov在解ill-posed equation时引入,通过加上惩罚项(一般来说是hilbert space上的Lp norm)来限制解可以取值的范围以保证解的良好性质,比如唯一性。后来人们发现,很多问题如果你给他太大的空间,搜索出来的解即便存在唯一,往往也不够好(under some other criteria, like predictive MSE, AIC, BIC ),这个涉及Occam Razor principle,统计中的bias variance trade off,拟合和预测的trade off啦,总的来说,让参数们老实点,别乱跑,得到的结果会比较好。
惩罚似然 请去看Fan Jianqing的SCAD,没记错是98年的JASA
惩罚回归 自然就去看Tibshirani的LASSO,96年的RoyalB,后面一堆follow up,还有tibshirani本人的review,此外还有Efron的LAR,早一点的Ridge Regression比较简单,可以看看
惩罚样条 去看Wahba的paper和书吧,此外记得Elements of Statistical Learning里面有讲光滑样条来着
PS:优化的话 其实统计这边不是那么care。一般来说加上惩罚之后,院里的unconstrained optimization就变成了constrained optimization,求解的算法复杂度只可能持平或者变高,因为惩罚引入的constrained set可能是奇形怪状的,离散的,非凸的。但是通过适当的选取惩罚可以避免太扯淡的np hard的问题。tenrence tao和candes的compressive sensing就是用L1的惩罚(凸优化)relax了本来很难求解的L0惩罚(整数规划),然后证明了在一定的稀疏性条件下,新的优化问题的解收敛到原问题的解。岭回归有显式解,LASSO虽然没有但是可以在最小二乘的时间复杂度内解出来,最后还有诸如SCAD等等non-convex的惩罚。。。对于这部分非凸的惩罚我只能说,统计性质或许很不错但是计算角度来看实在是不靠谱。。。但是咱们搞统计的不care~
阅读(...) 评论()统计学 | 我爱自然语言处理
3 LDA-math-MCMC 和 Gibbs Sampling(2)
3.2 Markov Chain Monte Carlo
对于给定的概率分布$p(x)$,我们希望能有便捷的方式生成它对应的样本。由于马氏链能收敛到平稳分布, 于是一个很的漂亮想法是:如果我们能构造一个转移矩阵为$P$的马氏链,使得该马氏链的平稳分布恰好是$p(x)$, 那么我们从任何一个初始状态$x_0$出发沿着马氏链转移, 得到一个转移序列 $x_0, x_1, x_2, \cdots x_n, x_{n+1}\cdots,$, 如果马氏链在第$n$步已经收敛了,于是我们就得到了 $\pi(x)$ 的样本$x_n, x_{n+1}\cdots$。
这个绝妙的想法在1953年被 Metropolis想到了,为了研究粒子系统的平稳性质, Metropolis 考虑了物理学中常见的波尔兹曼分布的采样问题,首次提出了基于马氏链的蒙特卡罗方法,即Metropolis算法,并在最早的计算机上编程实现。Metropolis 算法是首个普适的采样方法,并启发了一系列 MCMC方法,所以人们把它视为随机模拟技术腾飞的起点。 Metropolis的这篇论文被收录在《统计学中的重大突破》中, Metropolis算法也被遴选为二十世纪的十个最重要的算法之一。
我们接下来介绍的MCMC 算法是 Metropolis 算法的一个改进变种,即常用的 Metropolis-Hastings 算法。由上一节的例子和定理我们看到了,马氏链的收敛性质主要由转移矩阵$P$ 决定, 所以基于马氏链做采样的关键问题是如何构造转移矩阵$P$,使得平稳分布恰好是我们要的分布$p(x)$。如何能做到这一点呢?我们主要使用如下的定理。
本条目发布于。属于、、分类。作者是。
关注我们的微信公众号}

我要回帖

更多关于 应用统计学 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信