求解统计学原理

点击联系发帖人 时间：2017-05-15 23:04

应用统计学

作者：萧议
链接：/question//answer/
来源：知乎
著作权归作者所有，转载请联系作者获得授权。
惩罚的核心目的是限制参数空间的大小以降低模型复杂度，惩罚本身反应你对对应的统计问题的某种先验知识（比如回归系数当中应该有很多0啊，回归系数不应该太大啊）
比如n维线性回归中的LASSO和一般的最小二乘回归Least square，前者的回归系数被限制在一个L1意义下的n维球内，而后者的参数空间则是R^n
再比如光滑样条Smooth Spline通过对二阶导数进行惩罚来控制拟合曲线的光滑程度
一些情况下，惩罚有独特的概率上的解释，比如假设正太噪声的线性模型中，LASSO的L1惩罚相当于给回归参数加上了一个Laplace prior，而岭回归Ridge regression中的L2惩罚则对应一般的normal prior
这样的方法在统计中一般叫正则化Regularization，当然也可以叫惩罚Penalization，正则化由Tikhonov在解ill-posed equation时引入，通过加上惩罚项（一般来说是hilbert space上的Lp norm）来限制解可以取值的范围以保证解的良好性质，比如唯一性。后来人们发现，很多问题如果你给他太大的空间，搜索出来的解即便存在唯一，往往也不够好(under some other criteria, like predictive MSE, AIC, BIC )，这个涉及Occam Razor principle，统计中的bias variance trade off，拟合和预测的trade off啦，总的来说，让参数们老实点，别乱跑，得到的结果会比较好。
惩罚似然请去看Fan Jianqing的SCAD，没记错是98年的JASA
惩罚回归自然就去看Tibshirani的LASSO，96年的RoyalB，后面一堆follow up，还有tibshirani本人的review，此外还有Efron的LAR，早一点的Ridge Regression比较简单，可以看看
惩罚样条去看Wahba的paper和书吧，此外记得Elements of Statistical Learning里面有讲光滑样条来着
PS:优化的话其实统计这边不是那么care。一般来说加上惩罚之后，院里的unconstrained optimization就变成了constrained optimization，求解的算法复杂度只可能持平或者变高，因为惩罚引入的constrained set可能是奇形怪状的，离散的，非凸的。但是通过适当的选取惩罚可以避免太扯淡的np hard的问题。tenrence tao和candes的compressive sensing就是用L1的惩罚（凸优化）relax了本来很难求解的L0惩罚（整数规划），然后证明了在一定的稀疏性条件下，新的优化问题的解收敛到原问题的解。岭回归有显式解，LASSO虽然没有但是可以在最小二乘的时间复杂度内解出来，最后还有诸如SCAD等等non-convex的惩罚。。。对于这部分非凸的惩罚我只能说，统计性质或许很不错但是计算角度来看实在是不靠谱。。。但是咱们搞统计的不care～
阅读(...) 评论()统计学 | 我爱自然语言处理
3 LDA-math-MCMC 和 Gibbs Sampling(2)
3.2 Markov Chain Monte Carlo
对于给定的概率分布$p(x)$,我们希望能有便捷的方式生成它对应的样本。由于马氏链能收敛到平稳分布，于是一个很的漂亮想法是：如果我们能构造一个转移矩阵为$P$的马氏链，使得该马氏链的平稳分布恰好是$p(x)$, 那么我们从任何一个初始状态$x_0$出发沿着马氏链转移, 得到一个转移序列 $x_0, x_1, x_2, \cdots x_n, x_{n+1}\cdots,$，如果马氏链在第$n$步已经收敛了，于是我们就得到了 $\pi(x)$ 的样本$x_n, x_{n+1}\cdots$。
这个绝妙的想法在1953年被 Metropolis想到了，为了研究粒子系统的平稳性质， Metropolis 考虑了物理学中常见的波尔兹曼分布的采样问题，首次提出了基于马氏链的蒙特卡罗方法，即Metropolis算法，并在最早的计算机上编程实现。Metropolis 算法是首个普适的采样方法，并启发了一系列 MCMC方法，所以人们把它视为随机模拟技术腾飞的起点。 Metropolis的这篇论文被收录在《统计学中的重大突破》中， Metropolis算法也被遴选为二十世纪的十个最重要的算法之一。
我们接下来介绍的MCMC 算法是 Metropolis 算法的一个改进变种，即常用的 Metropolis-Hastings 算法。由上一节的例子和定理我们看到了，马氏链的收敛性质主要由转移矩阵$P$ 决定, 所以基于马氏链做采样的关键问题是如何构造转移矩阵$P$,使得平稳分布恰好是我们要的分布$p(x)$。如何能做到这一点呢？我们主要使用如下的定理。
本条目发布于。属于、、分类。作者是。
关注我们的微信公众号}

我爱游戏网