EM算法怎么用在常用聚类算法上

点击联系发帖人 时间：2016-12-29 18:52

常用的聚类算法

递增EM算法的图像聚类_百度文库
您的浏览器Javascript被禁用，需开启后体验完整功能，
享专业文档下载特权
&赠共享文档下载特权
&10W篇文档免费专享
&每天抽奖多种福利
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
递增EM算法的图像聚类
阅读已结束，下载本文需要
想免费下载本文？
定制HR最喜欢的简历
下载文档到电脑，同时保存到云知识，更方便管理
加入VIP
还剩1页未读，
定制HR最喜欢的简历
你可能喜欢大其愿，坚其志，虚其心，柔其气
EM（期望最大化）聚类详细推导
在讲EM之前，不知道大家还记不记得，这个算法本质上也是一种聚类算法，而且GMM的求解正是利用本篇所讲的EM聚类来得到高斯分量的。
上篇提到了K-Means聚类，尽管这个算法很常用，但可能会遇到像聚类重叠，或聚类的形状不是圆形等问题；今天来学习一个新的聚类算法，叫EM聚类，这个算法本质上来说跟K-Means很像，但比K-Means全面更深入的描述一个聚类，因为除了利用均值（质心），还有方差（为了得到椭圆聚类），以及权重（聚类的size）。
为了更好地学习EM，先来举个例子：假设我们从一所高中里随机抽取了500个同学的鞋码数据，现在我们要在不知道任何信息的情况下对这500个数据进行分类，哪个是来自男生，哪个是来自女生；对于任何一堆数据我们都可以用高斯分布来拟合，基于这样一个假设，我们假定男生和女生的鞋码均满足不同参数下的高斯分布，并且给定一个初始的参数值（均值和方差），根据这个已知参数的高斯分布可以粗略地将每一个数据都划分到指定类（属于男生或女生）；另外由于男生的鞋码普遍比女生大，一般在39到44之间，那么均值大略就是42左右，所以如果有一个数据是41，那么我们就更大可能地将其分到男生，基于此判别，我们就得到了500个数据的初始分类，然后根据极大似然的求解方法，利用这些属于男生分类的鞋码数据重新估计男生鞋码的高斯分布的参数，同样的方法重新估计出女生鞋码的高斯分布的参数；接着在男生和女生的鞋码分布被重新估计之后，归属于这两个分布的概率也随之会发生变化，那么我们就继续更新，这样多次迭代，直到两类的分布参数变化甚小停止迭代更新。
2.EM中用到的相关概念
2.1 边缘概率分布
2.2.詹森不等式
3.EM（期望最大化）基本原理
设样本数据(x1,x2,...,xn)间互相独立，每个样本对应的类别zi未知，我们的目的是确定样本所属类别使得p(zi)最大化，则其似然函数为：
定义类别变量zi满足某一分布Qi，并且该分布（离散分布）满足以下条件：
因此，利用上述提到的詹森不等式对公式（1）变形得到：
因为其实就是的期望，所以由詹森不等式可推导出如下：
到这里，可能会有人疑惑了，詹森不等式里明明是≤，为什么这里却变成了≥呢？很简单，这是因为詹森不等式是对凸函数而言的，但是我们这里的对数函数很明显它是一个凹函数啊，所以不等式符号要颠倒。
至此，通过公式（2）的求解我们得到了似然函数l(theta)的下界，如果theta已知，那么似然函数l(theta)的值就取决于两个概率Qi(zi)，p(zi)，因此可以通过调整Qi(zi)，p(zi)的值，使公式（2）由不等式变成等式，这样来逼近似然函数l(theta)的值。根据詹森不等式可以知道，当且仅当X为常量时，不等式取等号，于是有：
其中C是常量，对于一系列不同的zi之，进行求和得到：
又因为分母上为1（根据公式（3）），所以有：
代入公式（4），并且引入条件概率公式可得：
上式给出了关于类别的分布，剩下的工作就是对似然函数l(theta)进行最大化了：
EM（期望最大化）聚类：
与K-Means不同的是，这里我们并不计算距离，而是计算概率（并且明显要比K-Means复杂的多），用一个给定的多元高斯概率分布模型来估计出一个数据点属于一个聚类的概率，即将每一个聚类看作是一个高斯模型；
同样主要由两步交替进行：
E-step：对于每一个数据点，我们要计算其属于其中每个聚类的概率作为权重：如果一个点很大可能属于一个聚类，就将对应的概率设置为接近1的值，对于那种可能会出现一个点属于2个或多个聚类的情况，就需要建立一个对聚类的概率分布，所以EM算法有一个特性，就是没有严格要求一个点必须要属于一个聚类，这一特性被称为“软聚类（soft clustering）”。
M-step：这一步骤主要是利用上一步计算的权重来估计每个聚类的有关参数（均值，方差）：每一个数据点以E-step中的概率作权重，然后与K-means一样计算每一个聚类的均值和方差，进而求取聚类的总体概率或极大似然。
这样通过E-step和M-step的不断交替来增加总的对数似然直到收敛，而且最大值也有可能陷入局部最优，所以需要多次迭代。
参考：https://mp.weixin.qq.com/s?__biz=MzA3MDg0MjgxNQ==&mid=&idx=1&sn=c9ccdf947d4e25b9ce47e&scene=1&srcid=05304TZDoRrhIRoBHyYMx8UM&key=f5c31ae61525f82eab34f9ecf5d19f7cb7b8b0da19e8e319ee936fb6eefdbd4c7438&ascene=0&uin=MTA2ODMxMjkyOA%3D%3D&devicetype=iMac+MacBookPro11%2C4+OSX+OSX+10.11.3+build(15D21)&version=&pass_ticket=2NltwMZVX94K1QpBtro2ILo7a9k1SoxiFANeVO9ZAFeAfLUpGKLsUkuTvMLyJnxZ
没有更多推荐了，基于模糊理论的EM算法在聚类分析的应用研究
聚类分析是数据挖掘、机器学习等领域的重要内容,各种聚类算法五花八门,各有利弊。如何让聚类算法适应复杂的应用场景,让聚类结果更加正确、稳定都显得至关重要,除了根据实际问题选择合适的聚类算法之外,还需要对算法进行适当改进,扬长避短。另一方面,随着评价与决策方法越来越科学化,在很多实际问题的原始数据中都存在着以自然语言为主的评价性语言数据,这种无法被计算机和传统算法处理的数据给聚类的实施带来了困难。本文对较为常见的有限多分量多维度高斯混合概率分布模型进行研究,选择对该模型有着较好处理能力、简单稳定的EM聚类算法作为核心,分析EM算法的思想和本质,针对实际应用中样本可能会大量存在异常数据的情况,结合模糊数学理论改进EM算法,使算法能够更好地剔除样本中的异常数据,提高聚类精确性,还可以通过阈值参数来控制对异常数据的敏感程度,提高算法的实用性。针对原始数据中存在评价性自然语言的情况,本文根据模糊理论,采用三角模糊数对评价语言进行模糊处理,通&
(本文共79页)
权威出处：
EM (expectation-maximization)算法又称期望最大化算法,是Dempster, Laind, Rubin于1977年提出的求参数极大似然估计的一种迭代优化策略,它可以从非完整数据集中对参数进行极大似然估计,是一种非常简单实用的学习算法。这种方法可以广泛地应用于处理缺损数据,截尾数据,带有噪声等所谓的不完全数据,EM算法是在缺失数据等不完全数据下进行参数的极大似然估计或者极大后验估计一种行之有效的方法。文章的首先主要介绍来了EM算法的研究背景意义,国内外研究现状,以及EM算法优化迭代的理论和一般步骤,接着给出了一个启发性的例子从而让我们更好的理解EM算法,接着对EM算法的收敛性进行了证明,说明了EM算法每次迭代总是能提高似然函数值直到收敛到一个稳定点,之后研究了EM算法的收敛速度。从上一部分可以看出,EM算法的优势是显然的,基于其简单、收敛、稳定上升,但是它也有诸多缺点,本文之后阐述了针对EM算法的缺点对其...&
(本文共59页)
权威出处：
不完全数据的参数估计是许多领域都要涉及的问题,如专家系统、人工智能、证券市场中的股票及证券走势的预测等问题,都经常会有数据残缺不全的现象.较早解决不完全数据的参数估计的方法有A.P.Dempster,N.M.Laird和D.B.Rubin在1977年提出的EM算法,S.Geman和D.Geman在1984年提出的Gibbs抽样,1953年由N.Metropolis提出并由W.K.Hastings改进的Metropolis Hastings方法等.随后,EM算法进一步成熟和完善,形成了一系列算法,其中由X.L.Meng和D.B.Rubin于1993年提出的GEM算法,以及MonteCarloEM算法等都不同程度地改进了EM算法[1].EM算法是根据点估计中的最大似然估计(MLE)改进的一种迭代算法.在用MLE求参数或参向量的极大似然估计时,直接求往往比较困难,EM算法将问题的求解分为两步,即E步(对完全数据的似然函数的对数求条件期...&
(本文共4页)
权威出处：
高斯混合模型(Gaussian Mixture Model,GMM)作为一种通用的概率模型,能有效地模拟多维矢量的任意连续概率分布,在此基础上发展起来的高斯混合模型通用背景模型(GMM-UBM)在语音识别[1]、图像识别和检索[2-4]等领域都取得了良好的效果。GMM-UBM需要大量的训练样本数据通过GMM模拟所有样本数据的空间分布状态作为通用背景模型,因此GMM参数的估算显得尤为重要。期望最大化(Expec-tation Maximization,EM)算法是传统的估计GMM参数的方法,样本数据规模增大时,EM算法存在迭代次数多、运行时间过长等问题,这影响了GMM参数估算的速度。在不影响参数估算准确程度的基础上加快EM算法的运行速度将具有非常重要的现实意义。本文针对EM算法运行时间过长的问题,提出了一种改进的EM算法,文章结合KTH人体行为数据库,对改进的EM算法从运行速度和行为识别准确率两方面进行了验证,结果显示改进后的EM...&
(本文共4页)
权威出处：
关于电子政务[1],目前国内外已有多种提法,如电子政府、计算机化政府等.这些提法从不同的角度揭示了电子政务的概念与特征.电子政务的应用不像政府上网那么简单.公众信息网作为政府公共行政改革的技术支撑,必须与此相适应,把为公众服务作为网络建设的根本宗旨,即通过公众信息网将政府公共服务职能电子化,逐步迈向全面的电子政务.电子政务系统模型可简单概括为两方面:一是政府部门内部利用先进的网络信息技术实现办公自动化、管理信息化、决策科学化;二是政府部门与社会各界利用网络信息平台充分进行信息共享与服务、加强群众监督、提高办事效率及促进政务公开等等.目前,普遍流行的标准电子政务系统结构如图1所示.图1电子政务系统结构图门户系统是整个电子政务的最前端,政府可以通过新闻内容管理系统进行单向的信息发布,这是面向整个社会大众的.社会大众将需要政府服务的信息通过网上办事互动功能进行提交,通过专门接口系统将这种服务请求递交到专门的部门系统.需要在多个平级或上...&
(本文共3页)
权威出处：
高斯混合模型(GMM)被广泛应用于模式识别、计算机视觉、机器学习、数据挖掘、生物信息学等不同领域。在这些领域里,它被用来完成诸如图像分割、聚类、概率密度函数的构建等任务。通常,人们用期望最大化(EM)算法求解GMM模型中的参数。尽管EM是一种非常有效的算法,且能保证收敛。但EM算法存在两个还没有被完全解决的问题:(1)因为EM只能保证收敛到局部最优点,所以EM算法对初始条件非常敏感;(2)用户需要预先设置GMM中高斯成员的个数,而在没有任何先验信息的情况下,如何设置高斯成员的个数也通常非常棘手。本文主要研究内容分为以下两个部分:在第一部分中,本文试图解决EM算法存在的不足。本文首先分析并指出EM算法的初始化敏感问题源于它的并行式学习策略所带来的高斯成员之间的竞争关系对公平的竞争条件的苛刻要求。由此,本文从改善学习策略的角度,在EM算法的前端加入了类似于EM算法的串行式学习过程,即让所有高斯成员在参与竞争前先避免竞争,以减小EM算...&
(本文共52页)
权威出处：
扩展阅读：
CNKI手机学问
有学问，才够权威！
xuewen.cnki.net
出版：《中国学术期刊（光盘版）》电子杂志社有限公司
地址：北京清华大学 84-48信箱大众知识服务
京ICP证040431号&
服务咨询：400-810--9993
订购咨询：400-819-9993
传真：010-用心写好博客
聚类1-K-means-EM算法
转自http://blog.csdn.net/lvhao92/article/details/
记忆力太差了，很多东西之前研究过的，然后又忘了。然后又得重新看。浪费时间。所以，现在就把一些东西做个归纳，总结。一来方便自己日后回看，二来把之前零零散散的知识点串一串。写什么内容，估计也不是按照课本来的。就是乱写，内容是乱写，顺序也是乱序。现在文章比较少，估计以后文章多起来了可能会根据逻辑对他们排个序把。那个还很长远，先认真写好这篇吧。
OK，聚类是属于“无监督学习”(unsupervised learning)中的一种，何为无监督，就是样本标签信息是未知的，训练的时候，你只能看见他们的特性而不知道他们类别。
聚类的方法也有很多，我就不多说了，因为我也不懂。
今天就给大家好好聊聊其中一个比较经典的聚类K-means。
首先，我们用k-means的时候会先告诉算法希望生成的聚类数量，然后算法会根据数据的结构来确定聚类的大小从而达到分类的效果。
我直接口述一下K-means的算法流程吧。
1）随机确定K个中心位置。
2）将各个数据项分配给最邻近的中心点。
3）分配完成后，聚类中心会移到该类所有节点的平均位置处。
4）重复2）和3）直至结果不再变化。
这个过程很简单，但是为什么要用迭代的思想去完成这个任务？让我们先来看看下面这个公式。
（1）这个就是K类数据到中心点的距离之和。而，我们上面这四个步骤希望求的也就是想要使得这个公式最小。
要知道，如果不采用迭代的思想去最小化这个式子是非常困难的，因为这是一个NP难问题，所以K-means采用了贪心策略，通过迭代优化来近似求解。
这是一个k-means的演示，大家可以试一试：
代码就不写了，比较的简单。
恩，接下来，稍微提一下世界十大算法之一的EM算法。这里只是简单的提一下，只是想看看EM算法和k-means算法的某种关系~后面会有博文详细对它进行描述的。
好了，简单的语言描述一下EM算法：这是一个两个步骤交替计算的算法，第一步是期望(E)步，利用当前已知参数值来估计最优隐变量的值。第二步是最大化(M)步，就是寻找能使E步期望似然最大化的参数。然后，新的参数值重新被用于E步，直到收敛到局部最优解。
回头来看k-means，这里我们的已知变量就是各个类的中心点ui，而隐变量就是物体的标签类别Ci，这是我们不知道的(毕竟无监督)。一开始我们会根据随机确定的中心点位置（已知变量）来确定他们的类别（隐变量）。这是不是有点类似EM的E步，根据已知参数来估计最优隐参数（类别）。
一旦确定了类别之后，k-means就会将聚类中心转移到该类所有节点的平均处，这么做的原因就是使得公式(1)最小，公式(1)可不可以理解成成本函数最小？是不是类似于极大似然估计（寻求满足式子最优化时候的参数）？所以这一步是不是又和EM算法里面的M步类似？寻求能使E步期望似然最大化的参数。而我们这里就是寻求能使所有点距离最小的聚类中心点位置（已知参数）。
然后二者都是开开心心的迭代完成上面的两步。
所以k-means的血液里是有EM算法的存在的。
两个步骤又是迭代完成，很多前辈喜欢称此类问题为鸡蛋悖论，先有鸡还是先有蛋呢？
管你先有鸡还是先有蛋，只要蛋生鸡，鸡生蛋这个循环还一直存在着。我们就能一直有肉吃。
没有更多推荐了，EM算法怎么用在聚类上？ - 知乎有问题，上知乎。知乎作为中文互联网最大的知识分享平台，以「知识连接一切」为愿景，致力于构建一个人人都可以便捷接入的知识分享网络，让人们便捷地与世界分享知识、经验和见解，发现更大的世界。135被浏览<strong class="NumberBoard-itemValue" title="1分享邀请回答269 条评论分享收藏感谢收起3添加评论分享收藏感谢收起}

我爱游戏网