怎么理解在模型中使用L1+L2逻辑回归正则化 l1 l2

logistic模型准确度为多少时可以使用_百度知道
logistic模型准确度为多少时可以使用
提问者采纳
能够大大简化模型和计算svm 更多的属于非参数模型,如l1.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,也就是和分类最相关的少数点,根据需要.而逻辑回归通过非线性映射,好理解,分类只需要计算与少数几个支持向量的距离,实现起来,大大减小了离分类平面较远的点的权重.还有很重要的一点,两种算法的结果是很接近的.logic 能做的 svm能做,去学习分类器,有一套结构化风险最小化的理论基础,而logistic regression 是参数模型,这个在进行复杂核函数计算时优势很明显,特别是大规模线性分类时比较方便,SVM转化为对偶问题后.而SVM的理解和优化相对来说复杂一些,减少与分类关系较小的数据点的权重.但是SVM的理论基础更加牢固两种方法都是常见的分类算法,虽然一般使用的人不太会去关注,l2等等,从目标函数来看.SVM的处理方法是只考虑support vectors,svm采用的是hinge loss,区别在于逻辑回归采用的是logistical loss,相对提升了与分类最相关的数据点的权重.两者的根本目的都是一样的,两个方法都可以增加不同的正则化项.此外.所以在很多实验中,但可能在准确率上有问题.其区别就可以参考参数模型和非参模型的区别就好了,本质不同.但是逻辑回归相对来说模型更简单
其他类似问题
为您推荐:
logistic模型的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁2327人阅读
子空间学习(4)
模式识别&机器学习(10)
最优化(8)
上学的时候,就一直很好奇,模式识别理论中,常提到的正则化到底是干什么的?渐渐地,听到的多了,看到的多了,再加上平时做东西都会或多或少的接触,有了一些新的理解。
1. 正则化的目的:防止过拟合!
2. 正则化的本质:约束(限制)要优化的参数。
关于第1点,过拟合指的是给定一堆数据,这堆数据带有噪声,利用模型去拟合这堆数据,可能会把噪声数据也给拟合了,这点很致命,一方面会造成模型比较复杂(想想看,本来一次函数能够拟合的数据,现在由于数据带有噪声,导致要用五次函数来拟合,多复杂!),另一方面,模型的泛化性能太差了(本来是一次函数生成的数据,结果由于噪声的干扰,得到的模型是五次的),遇到了新的数据让你测试,你所得到的过拟合的模型,正确率是很差的。
关于第2点,本来解空间是全部区域,但通过正则化添加了一些约束,使得解空间变小了,甚至在个别正则化方式下,解变得稀疏了。这一点不得不提到一个图,相信我们都经常看到这个图,但貌似还没有一个特别清晰的解释,这里我尝试解释一下,图如下:
这里的w1,w2都是模型的参数,要优化的目标参数,那个红色边框包含的区域,其实就是解空间,正如上面所说,这个时候,解空间“缩小了”,你只能在这个缩小了的空间中,寻找使得目标函数最小的w1,w2。左边图的解空间是圆的,是由于采用了L2范数正则化项的缘故,右边的是个四边形,是由于采用了L1范数作为正则化项的缘故,大家可以在纸上画画,L2构成的区域一定是个圆,L1构成的区域一定是个四边形。
再看看那蓝色的圆圈,再次提醒大家,这个坐标轴和特征(数据)没关系,它完全是参数的坐标系,每一个圆圈上,可以取无数个w1,w2,这些w1,w2有个共同的特点,用它们计算的目标函数值是相等的!那个蓝色的圆心,就是实际最优参数,但是由于我们对解空间做了限制,所以最优解只能在“缩小的”解空间中产生。
蓝色的圈圈一圈又一圈,代表着参数w1,w2在不停的变化,并且是在解空间中进行变化(这点注意,图上面没有画出来,估计画出来就不好看了),直到脱离了解空间,也就得到了图上面的那个w*,这便是目标函数的最优参数。
对比一下左右两幅图的w*,我们明显可以发现,右图的w*的w1分量是0,有没有感受到一丝丝凉意?稀疏解诞生了!是的,这就是我们想要的稀疏解,我们想要的简单模型。
还记得模式识别中的剃刀原理不?倾向于简单的模型来处理问题,避免采用复杂的。
这里必须要强调的是,这两幅图只是一个例子而已,没有说采用L1范数就一定能够得到稀疏解,完全有可能蓝色的圈圈和四边形(右图)的一边相交,得到的就不是稀疏解了,这要看蓝色圈圈的圆心在哪里。
此外,正则化其实和“带约束的目标函数”是等价的,二者可以互相转换。关于这一点,我试着给出公式进行解释:
针对上图(左图),可以建立数学模型如下:
通过熟悉的拉格朗日乘子法(注意这个方法的名字),可以变为如下形式:
看到没,这两个等价公式说明了,正则化的本质就是,给优化参数一定约束,所以,正则化与加限制约束,只是变换了一个样子而已。
此外,我们注意,正则化因子,也就是里面的那个lamda,如果它变大了,说明目标函数的作用变小了,正则化项的作用变大了,对参数的限制能力加强了,这会使得参数的变化不那么剧烈(仅对如上数学模型),直接的好处就是避免模型过拟合。反之,自己想想看吧。。。
个人感觉,“正则化”这几个字叫的实在是太抽象了,会吓唬到人,其实真没啥。如果改成“限制化”或者是“约束化”,岂不是更好?
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:88998次
积分:1762
积分:1762
排名:第16076名
原创:42篇
评论:320条
阅读:7877
文章:10篇
阅读:13149
文章:10篇
阅读:19081
(1)(2)(1)(1)(2)(5)(3)(3)(1)(3)(5)(1)(2)(4)(4)(5)(5)机器学习算法(12)
L0 L1 L2 核范数
规则化:从贝叶斯的角度看,规则化对应于模型的先验概率。规则化是结构风险最小化的策略的实现,是在经验风险上加一个正则化项或惩罚项
第一项:Loss & &第二项:规则化项
loss :square loss &最小二乘
Hinge Loss & &SVM
exp-Loss: &Boosting
log Loss: & LR &
规则化项:模型越复杂,规则化值就越大 常用的规则化项:L0,L1,L2,迹范数,Frobenius范数,核范数
一、L0与L1范数
L0范数是指向量中非0的元素的个数。
L0和L1都可以实现稀疏矩阵。而L0范数很难优化求解(NP难),L1是L0范数的最优凸近似,要更容易优化
L1的好处:1)特征选择,2)可解释性
L1:lasso &&L1相当于加了一个拉普拉斯先验概率
二、L2范数(ridge)&L2相当于加了一个先验的高斯分布 &都可以防止过拟合
L2范数可以实现对模型空间的限制,从而在一定程度上避免了过拟合,L2与L1不同的地方是让模型的参数接近于0而不是等于0,越小的参数说明模型越简单,越简单的模型越不容易产生过拟合现象
L2的好处:1)L2防止过拟合,提升模型的泛化能力
2)L2范数更适合优化计算 毕竟L2求导方便一点
L1和L2的差别:
1)下降速度:
2)模型空间的限制:
一句话总结就是:L1会趋向于产生少量的特征,而其他的特征都是0,而L2会选择更多的特征,这些特征都会接近于0。Lasso在特征选择时候非常有用,而Ridge就只是一种规则化而已。
三、核范数
核范数||w||*是指矩阵奇异值的和。核范数的主要作用是低秩,如果矩阵有很多的冗余信息,就可以投影到更低维的线性子空间中,可以用几个向量就完全表达,当数据缺失信息时,可以进行恢复,也可以对数据进行特征提取。rank(w)的凸近似就是核范数||w||。
1)矩阵填充:
低秩矩阵重构问题
2)鲁棒PCA(Robust PCA):
与经典PCA问题一样,鲁棒PCA本质上也是寻找数据在低维空间上的最佳投影问题。对于低秩数据观测矩阵X,假如X受到随机(稀疏)噪声的影响,则X的低秩性就会破坏,使X变成满秩的。所以我们就需要将X分解成包含其真实结构的低秩矩阵和稀疏噪声矩阵之和。找到了低秩矩阵,实际上就找到了数据的本质低维空间。那有了PCA,为什么还有这个Robust
PCA呢?Robust在哪?因为PCA假设我们的数据的噪声是高斯的,对于大的噪声或者严重的离群点,PCA会被它影响,导致无法正常工作。而Robust PCA则不存在这个假设。它只是假设它的噪声是稀疏的,而不管噪声的强弱如何。
参考知识库
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:1870次
排名:千里之外
原创:25篇
(7)(6)(13)}

我要回帖

更多关于 逻辑回归正则化 l1 l2 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信