怎么理解在模型中使用L1+L2逻辑回归正则化 l1 l2

点击联系发帖人 时间：2016-08-22 08:44

逻辑回归正则化 l1 l2

logistic模型准确度为多少时可以使用_百度知道
logistic模型准确度为多少时可以使用
提问者采纳
能够大大简化模型和计算svm 更多的属于非参数模型,如l1.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,也就是和分类最相关的少数点,根据需要.而逻辑回归通过非线性映射,好理解,分类只需要计算与少数几个支持向量的距离,实现起来,大大减小了离分类平面较远的点的权重.还有很重要的一点,两种算法的结果是很接近的.logic 能做的 svm能做,去学习分类器,有一套结构化风险最小化的理论基础,而logistic regression 是参数模型,这个在进行复杂核函数计算时优势很明显,特别是大规模线性分类时比较方便,SVM转化为对偶问题后.而SVM的理解和优化相对来说复杂一些,减少与分类关系较小的数据点的权重.但是SVM的理论基础更加牢固两种方法都是常见的分类算法,虽然一般使用的人不太会去关注,l2等等,从目标函数来看.SVM的处理方法是只考虑support vectors,svm采用的是hinge loss,区别在于逻辑回归采用的是logistical loss,相对提升了与分类最相关的数据点的权重.两者的根本目的都是一样的,两个方法都可以增加不同的正则化项.此外.所以在很多实验中,但可能在准确率上有问题.其区别就可以参考参数模型和非参模型的区别就好了,本质不同.但是逻辑回归相对来说模型更简单
其他类似问题
为您推荐：
logistic模型的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁2327人阅读
子空间学习（4）
模式识别&机器学习（10）
最优化（8）
上学的时候，就一直很好奇，模式识别理论中，常提到的正则化到底是干什么的？渐渐地，听到的多了，看到的多了，再加上平时做东西都会或多或少的接触，有了一些新的理解。
1. 正则化的目的：防止过拟合！
2. 正则化的本质：约束（限制）要优化的参数。
关于第1点，过拟合指的是给定一堆数据，这堆数据带有噪声，利用模型去拟合这堆数据，可能会把噪声数据也给拟合了，这点很致命，一方面会造成模型比较复杂（想想看，本来一次函数能够拟合的数据，现在由于数据带有噪声，导致要用五次函数来拟合，多复杂！），另一方面，模型的泛化性能太差了（本来是一次函数生成的数据，结果由于噪声的干扰，得到的模型是五次的），遇到了新的数据让你测试，你所得到的过拟合的模型，正确率是很差的。
关于第2点，本来解空间是全部区域，但通过正则化添加了一些约束，使得解空间变小了，甚至在个别正则化方式下，解变得稀疏了。这一点不得不提到一个图，相信我们都经常看到这个图，但貌似还没有一个特别清晰的解释，这里我尝试解释一下，图如下：
这里的w1，w2都是模型的参数，要优化的目标参数，那个红色边框包含的区域，其实就是解空间，正如上面所说，这个时候，解空间“缩小了”，你只能在这个缩小了的空间中，寻找使得目标函数最小的w1，w2。左边图的解空间是圆的，是由于采用了L2范数正则化项的缘故，右边的是个四边形，是由于采用了L1范数作为正则化项的缘故，大家可以在纸上画画，L2构成的区域一定是个圆，L1构成的区域一定是个四边形。
再看看那蓝色的圆圈，再次提醒大家，这个坐标轴和特征（数据）没关系，它完全是参数的坐标系，每一个圆圈上，可以取无数个w1，w2，这些w1，w2有个共同的特点，用它们计算的目标函数值是相等的！那个蓝色的圆心，就是实际最优参数，但是由于我们对解空间做了限制，所以最优解只能在“缩小的”解空间中产生。
蓝色的圈圈一圈又一圈，代表着参数w1，w2在不停的变化，并且是在解空间中进行变化（这点注意，图上面没有画出来，估计画出来就不好看了），直到脱离了解空间，也就得到了图上面的那个w*，这便是目标函数的最优参数。
对比一下左右两幅图的w*，我们明显可以发现，右图的w*的w1分量是0，有没有感受到一丝丝凉意？稀疏解诞生了！是的，这就是我们想要的稀疏解，我们想要的简单模型。
还记得模式识别中的剃刀原理不？倾向于简单的模型来处理问题，避免采用复杂的。
这里必须要强调的是，这两幅图只是一个例子而已，没有说采用L1范数就一定能够得到稀疏解，完全有可能蓝色的圈圈和四边形（右图）的一边相交，得到的就不是稀疏解了，这要看蓝色圈圈的圆心在哪里。
此外，正则化其实和“带约束的目标函数”是等价的，二者可以互相转换。关于这一点，我试着给出公式进行解释：
针对上图（左图），可以建立数学模型如下：
通过熟悉的拉格朗日乘子法（注意这个方法的名字），可以变为如下形式：
看到没，这两个等价公式说明了，正则化的本质就是，给优化参数一定约束，所以，正则化与加限制约束，只是变换了一个样子而已。
此外，我们注意，正则化因子，也就是里面的那个lamda，如果它变大了，说明目标函数的作用变小了，正则化项的作用变大了，对参数的限制能力加强了，这会使得参数的变化不那么剧烈（仅对如上数学模型），直接的好处就是避免模型过拟合。反之，自己想想看吧。。。
个人感觉，“正则化”这几个字叫的实在是太抽象了，会吓唬到人，其实真没啥。如果改成“限制化”或者是“约束化”，岂不是更好？
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：88998次
积分：1762
积分：1762
排名：第16076名
原创：42篇
评论：320条
阅读：7877
文章：10篇
阅读：13149
文章：10篇
阅读：19081
(1)(2)(1)(1)(2)(5)(3)(3)(1)(3)(5)(1)(2)(4)(4)(5)(5)机器学习算法（12）
L0 L1 L2 核范数
规则化：从贝叶斯的角度看，规则化对应于模型的先验概率。规则化是结构风险最小化的策略的实现，是在经验风险上加一个正则化项或惩罚项
第一项：Loss & &第二项：规则化项
loss ：square loss &最小二乘
Hinge Loss & &SVM
exp-Loss： &Boosting
log Loss： & LR &
规则化项：模型越复杂，规则化值就越大常用的规则化项：L0，L1，L2，迹范数，Frobenius范数，核范数
一、L0与L1范数
L0范数是指向量中非0的元素的个数。
L0和L1都可以实现稀疏矩阵。而L0范数很难优化求解（NP难），L1是L0范数的最优凸近似，要更容易优化
L1的好处：1）特征选择，2）可解释性
L1：lasso &&L1相当于加了一个拉普拉斯先验概率
二、L2范数（ridge）&L2相当于加了一个先验的高斯分布 &都可以防止过拟合
L2范数可以实现对模型空间的限制，从而在一定程度上避免了过拟合，L2与L1不同的地方是让模型的参数接近于0而不是等于0，越小的参数说明模型越简单，越简单的模型越不容易产生过拟合现象
L2的好处：1）L2防止过拟合，提升模型的泛化能力
2）L2范数更适合优化计算毕竟L2求导方便一点
L1和L2的差别：
1）下降速度：
2）模型空间的限制：
一句话总结就是：L1会趋向于产生少量的特征，而其他的特征都是0，而L2会选择更多的特征，这些特征都会接近于0。Lasso在特征选择时候非常有用，而Ridge就只是一种规则化而已。
三、核范数
核范数||w||*是指矩阵奇异值的和。核范数的主要作用是低秩，如果矩阵有很多的冗余信息，就可以投影到更低维的线性子空间中，可以用几个向量就完全表达，当数据缺失信息时，可以进行恢复，也可以对数据进行特征提取。rank（w）的凸近似就是核范数||w||。
1）矩阵填充：
低秩矩阵重构问题
2）鲁棒PCA（Robust PCA）：
与经典PCA问题一样，鲁棒PCA本质上也是寻找数据在低维空间上的最佳投影问题。对于低秩数据观测矩阵X，假如X受到随机（稀疏）噪声的影响，则X的低秩性就会破坏，使X变成满秩的。所以我们就需要将X分解成包含其真实结构的低秩矩阵和稀疏噪声矩阵之和。找到了低秩矩阵，实际上就找到了数据的本质低维空间。那有了PCA，为什么还有这个Robust
PCA呢？Robust在哪？因为PCA假设我们的数据的噪声是高斯的，对于大的噪声或者严重的离群点，PCA会被它影响，导致无法正常工作。而Robust PCA则不存在这个假设。它只是假设它的噪声是稀疏的，而不管噪声的强弱如何。
参考知识库
* 以上用户言论只代表其个人观点，不代表CSDN网站的观点或立场
访问：1870次
排名：千里之外
原创：25篇
(7)(6)(13)}

我爱游戏网