半envi监督分类学习有哪些分类

点击联系发帖人 时间：2018-02-11 21:42

envi监督分类

1250人阅读
机器学习（8）
机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法。这里IT经理网为您总结一下常见的机器学习算法，以供您在工作和学习中参考。
机器学习的算法很多。很多时候困惑人们都是，很多算法是一类算法，而有些算法又是从其他算法中延伸出来的。这里，我们从两个方面来给大家介绍，第一个方面是学习的方式，第二个方面是算法的类似性。
根据数据类型的不同，对一个问题的建模有不同的方式。在机器学习或者人工智能领域，人们首先会考虑算法的学习方式。在机器学习领域，有几种主要的学习方式。将算法按照学习方式分类是一个不错的想法，这样可以让人们在建模和算法选择的时候考虑能根据输入数据来选择最合适的算法来获得最好的结果。
监督式学习：
在监督式学习下，输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果，如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”，对手写数字识别中的“1“，”2“，”3“，”4“等。在建立预测模型的时候，监督式学习建立一个学习过程，将预测结果与“训练数据”的实际结果进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归（Logistic Regression）和反向传递神经网络（Back
Propagation Neural Network）
非监督式学习：
在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法。
半监督式学习：
在此学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如图论推理算法（Graph Inference）或者拉普拉斯支持向量机（Laplacian SVM.）等。
强化学习：
在这种学习模式下，输入数据作为对模型的反馈，不像监督模型那样，输入数据仅仅是作为一个检查模型对错的方式，在强化学习下，输入数据直接反馈到模型，模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习（Temporal difference learning）
在企业数据应用的场景下，人们最常用的可能就是监督式学习和非监督式学习的模型。在图像识别等领域，由于存在大量的非标识的数据和少量的可标识数据，目前半监督式学习是一个很热的话题。而强化学习更多的应用在机器人控制及其他需要进行系统控制的领域。
算法类似性
根据算法的功能和形式的类似性，我们可以把算法分类，比如说基于树的算法，基于神经网络的算法等等。当然，机器学习的范围非常庞大，有些算法很难明确归类到某一类。而对于有些分类来说，同一分类的算法可以针对不同类型的问题。这里，我们尽量把常用的算法按照最容易理解的方式进行分类。
回归算法：
回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。在机器学习领域，人们说起回归，有时候是指一类问题，有时候是指一类算法，这一点常常会使初学者有所困惑。常见的回归算法包括：最小二乘法（Ordinary Least Square），逻辑回归（Logistic Regression），逐步式回归（Stepwise Regression），多元自适应回归样条（Multivariate Adaptive Regression
Splines）以及本地散点平滑估计（Locally Estimated Scatterplot Smoothing）
基于实例的算法
基于实例的算法常常用来对决策问题建立模型，这样的模型常常先选取一批样本数据，然后根据某些近似性把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。因此，基于实例的算法常常也被称为“赢家通吃”学习或者“基于记忆的学习”。常见的算法包括 k-Nearest Neighbor(KNN), 学习矢量量化（Learning Vector Quantization， LVQ），以及自组织映射算法（Self-Organizing Map ， SOM）
正则化方法
正则化方法是其他算法（通常是回归算法）的延伸，根据算法的复杂度对算法进行调整。正则化方法通常对简单模型予以奖励而对复杂算法予以惩罚。常见的算法包括：Ridge Regression， Least Absolute Shrinkage and Selection Operator（LASSO），以及弹性网络（Elastic Net）。
决策树学习
决策树算法根据数据的属性采用树状结构建立决策模型，决策树模型常常用来解决分类和回归问题。常见的算法包括：分类及回归树（Classification And Regression Tree， CART）， ID3&(Iterative Dichotomiser 3)， C4.5， Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 随机森林（Random Forest），
多元自适应回归样条（MARS）以及梯度推进机（Gradient Boosting Machine， GBM）
贝叶斯方法
贝叶斯方法算法是基于贝叶斯定理的一类算法，主要用来解决分类和回归问题。常见算法包括：朴素贝叶斯算法，平均单依赖估计（Averaged One-Dependence Estimators， AODE），以及Bayesian Belief Network（BBN）。
基于核的算法
基于核的算法中最著名的莫过于支持向量机（SVM）了。基于核的算法把输入数据映射到一个高阶的向量空间，在这些高阶向量空间里，有些分类或者回归问题能够更容易的解决。常见的基于核的算法包括：支持向量机（Support Vector Machine， SVM），径向基函数（Radial Basis Function ，RBF)，以及线性判别分析（Linear Discriminate Analysis ，LDA)等
聚类，就像回归一样，有时候人们描述的是一类问题，有时候描述的是一类算法。聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所以的聚类算法都试图找到数据的内在结构，以便按照最大的共同点将数据进行归类。常见的聚类算法包括 k-Means算法以及期望最大化算法（Expectation Maximization， EM）。
关联规则学习
关联规则学习通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则。常见算法包括 Apriori算法和Eclat算法等。
人工神经网络
人工神经网络算法模拟生物神经网络，是一类模式匹配算法。通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支，有几百种不同的算法。（其中深度学习就是其中的一类算法，我们会单独讨论），重要的人工神经网络算法包括：感知器神经网络（Perceptron Neural Network）, 反向传递（Back Propagation）， Hopfield网络，自组织映射（Self-Organizing Map, SOM）。学习矢量量化（Learning
Vector Quantization， LVQ）
深度学习算法是对人工神经网络的发展。在近期赢得了很多关注，特别是，更是在国内引起了很多关注。&& 在计算能力变得日益廉价的今天，深度学习试图建立大得多也复杂得多的神经网络。很多深度学习的算法是半监督式学习算法，用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括：受限波尔兹曼机（Restricted
Boltzmann Machine， RBN）， Deep Belief Networks（DBN），卷积网络（Convolutional Network）, 堆栈式自动编码器（Stacked Auto-encoders）。
降低维度算法
像聚类算法一样，降低维度算法试图分析数据的内在结构，不过降低维度算法是以非监督学习的方式试图利用较少的信息来归纳或者解释数据。这类算法可以用于高维数据的可视化或者用来简化数据以便监督式学习使用。常见的算法包括：主成份分析（Principle Component Analysis， PCA），偏最小二乘回归（Partial Least Square Regression，PLS）， Sammon映射，多维尺度（Multi-Dimensional Scaling,
MDS）, &投影追踪（Projection Pursuit）等。
集成算法：
集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练，然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。这是一类非常强大的算法，同时也非常流行。常见的算法包括：Boosting， Bootstrapped Aggregation（Bagging）， AdaBoost，堆叠泛化（Stacked Generalization， Blending），梯度推进机（Gradient Boosting
Machine, GBM），随机森林（Random Forest）。
原文地址http://www.ctocio.com/hotnews/15919.html
在机器学习()领域，监督学习()、非监督学习()以及半监督学习()是三类研究比较多，应用比较广的学习技术
监督学习：通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，非监督学习：直接对输入数据集进行建模半监督学习：综合利用有类标的数据和没有类标的数据，来生成合适的分类函数
半监督学习指的是在训练数据十分稀少的情况下，通过利用一些没有类标的数据，去学习没有标注数据的最优标注，减少标注代价，从而提高学习准确率的方法。
主动学习()：有时候有类别的数据比较少而没有类别的数据相当丰富，但是对数据进行人工标注又是非常昂贵，这时候学习算法可以主动地提出一些标注请求将一些经过筛选的数据提交给专家进行标注这是半监督学习的最大区别，其学习算法不需要人工干预，基于自身对未标记数据加以利用。
筛选过程也就是主动学习主要研究的地方了，怎么样筛选数据才能使得请求标注的次数尽量少而最终的结果又尽量好。
主动学习的过程大致是这样的，有一个已经标好类标的数据集K(初始时可能为空)，和还没有标记的数据集U，通过K集合的信息，找出一个U的子集C，提出标注请求，待专家将数据集C标注完成后加入到K集合中，进行下一次迭代。
按wiki上所描述的看，主动学习也属于半监督学习的范畴了，但实际上是不一样的，半监督学习和直推学习()以及主动学习，都属于利用未标记数据的学习技术，但基本思想还是有区别的。
如上所述，主动学习的“主动”，指的是主动提出标注请求，也就是说，还是需要一个外在的能够对其请求进行标注的实体(通常就是相关领域人员)，即主动学习是交互进行的。
至于直推学习，它与半监督学习一样不需要人工干预，不同的是，直推学习假设未标记的数据就是最终要用来测试的数据，学习的目的就是在这些数据上取得最佳泛化能力。相对应的，半监督学习在学习时并不知道最终的测试用例是什么。
也就是说，直推学习其实类似于半监督学习的一个子问题，或者说是一个特殊化的半监督学习，所以也有人将其归为半监督学习。
而主动学习和半监督学习，其基本思想上就不一样了，所以还是要加以区分的，如果wiki上对半监督学习的解释能特别强调一下“是在不需要人工干预的条件下由算法自行完成对无标记数据的利用”，问题就会更清楚一些了。
常见主动学习，原文地址http://blog.sina.com.cn/s/blog_4c98b.html
按照对未标注数据的选择策略，可以把当前的主动学习算法大致分为两类
(1)基于评委的方法 (committee-based methods)
首先用各种不同的学习器对样本进行标注，然后由标注人员对有争议的标注结果作出最终判断。不同的学习器之间的分歧是由它们对样本标注结果预测的差异所造成的。
(2)基于置信度的方法(certainty-based methods)
先由模型给出具有较低置信度的样本，再交给标注人员选择性地进行标注。置信度的计算通常是由学习器度量n-最优(n-best)标注结果之间的差异得到的。下面详细描绘一下基于评委的方法和基于置信度的方法的普遍流程。
基于评委的方法：
(1) 对于由 n个未标注样本构成的样本组 B 中的每个样本e，使用从先前标注样本中训练出来的 k 个模型对其进行标注得到 k个结果{L1,L2...Lk}，通过{L1,L2...Lk}，对每个 e测量出具有争议的标注结果De ；
(2) 从样本组 B 中选择出 m个具有最高 De值的样本交给标注人员进行标注。把人工标注好的样本加进训练样本库里；
(3)在扩大后的训练样本库的基础上，再重新得到 k个模型。首先将语料库划分为连续的n个样本组，贯穿整个语料库，重复地在n 个样本组中顺序地进行该过程。如果语料库不大，样本 n正好等于语料库的大小，那么这个过程中的每一步都是在语料库的未标注样本中选择出m 个全局最优的实例，如果语料库的大小比样本 n大，那么这个过程是承接进行的。
&&&& 基于置信度的方法：
&(1)从先前标注的样本中训练出一个模型；
&(2)对于 N个未标注的样本组中的每一个样本用模型对其进行标注，评估模型标注的置信度；
&(3)从样本组中选择 m个具有最低置信度的样本交给标注人员进行标注；
&(4)把新标注的样本加进训练语料中；
&(5)重复执行以上过程直到标注人员停止或未标注样本用尽。
&&&Hwa运用基于置信度的方法从 Penn Treebank语料库学习语法，把学习器对一个样本的标注结果的不确定性等同于该样本的“训练效用值”。如果学习器能够从大量的未标注语料中识别出具有较高训练效用值的样本的子集，标注人员就不需要花费时间去标注那些不富含信息的样本。基于置信度的方法的难点在于如何构造一种度量方法来评估学习器标注结果的置信度。
&参考论文：基于半督导机器学习的分词算法的设计与实现
访问：29723次
积分：1116
排名：千里之外
原创：82篇
转载：19篇
评论：13条
(1)(2)(1)(2)(3)(4)(1)(9)(25)(11)(4)(17)(8)(13)(window.slotbydup=window.slotbydup || []).push({
id: '2014386',
container: s,
size: '234,60',
display: 'inlay-fix'
&&|&&0次下载&&|&&总10页&&|
您的计算机尚未安装Flash，点击安装&
阅读已结束，如需下载到电脑，请使用积分（）
下载：5积分
相关分类推荐
0人评价29页
0人评价29页
0人评价29页
0人评价29页
0人评价29页
所需积分：（友情提示：大部分文档均可免费预览！下载之前请务必先预览阅读，以免误下载造成积分浪费！）
（多个标签用逗号分隔）
文不对题，内容与标题介绍不符
广告内容或内容过于简单
文档乱码或无法正常显示
文档内容侵权
已存在相同文档
不属于经济管理类文档
源文档损坏或加密
若此文档涉嫌侵害了您的权利，请参照说明。
我要评价：
价格：5积分VIP价：4积分半监督学习的一些文章(Semi-supervised)
半监督学习的一些文章(Semi-supervised)
半监督学习现在可是火红火热了！那是监督学习的成本实在是太高了，不仅要去特意标签数据，而且还需要人工刷选，而且最重要的是时间花很多，很麻烦。那么有没有一些方法，既可以使用未标签数据又可以学习到结果？
那就是两种——半监督学习和Active Learning(这种方法需要的样本量更加小）
为什么Semi-supervised 可以学习？
因为我们是估计underlying distribution (response value Y)，而且我们可以从数据知道的是，因为样本是从同一个distribution 抽取出来的，如果有相似的X,那么我们就会‘聚类’出相似的Y ，其实Semi-supervised 在ML课上面首先讲的是EM算法 (Mixure Gaussian Model) ,这个我会在文章的最后补充。
半监督学习现在主要的方法有三种：
Transductive SVM （和Inductive SVM 相对）（这种严格来说不是Semi的方法了）
Co-training: (协同训练）
Label Propagation: （图的标签传播算法）
Transductive 和 Inductive（semi-supervised) SVM的区别：
Inductive 是拿training 和testing 的数据来学习参数w, 并且把参数w 用在testing set 里面，这就像我现从大量的现象提取出general idea，并且把这种general idea 用到新的范式当中。Inductive 是用label points 和unlabeled points 一起来训练的分类器。
Transductive 先学习training data, 然后拿unlabel data 做testing data。这里还是先用training set 来做出一个classifer, 然后放进testing set， testing set 如果靠近训练集就会被标记为训练集。
Paste_Image.png
例如上面，有颜色的点是训练集（数量很小），我们通过KNN算法来算出越靠近有标记的点就会去标记某个种类。Transductive 只是用于标记没有标记的数据，并没有太好的预测作用。Joachims 提出要使用TSVM的方法，在文本分类中有大量的应用并且取得非常好的效果。例如query relevance feedback, news filtering, document collection 等等。
Paste_Image.png
Paste_Image.png
其实这个方法说到底也很简单，第一步用正常的方法来训练（training set), 然后用测试集来做regularized的方法使得模型有哦bias,然后增加bias来增加模型的准确性。但是我们不能使用unlabel data 来调整参数或者选择kernel.
Transductive Algorithm:
(1) 用training set 来训练SVM。
(2) Tune the parameter C (开始给出一个很小的value)
(3) increase C (slack variable)
(4) retrain the classifier
(5) nonlinear using kernel
Transductive 的优点
（1）只需要少量的测试集就可以训练模型
（2）训练的次数快而且计算量不会太占空间。
（1）不能成为预测模型，只能对测试集进行分类
（2）因为没有训练出一个参数，所以每次有新的测试集进来的时候，都要重新计算一遍。
Co-Training:
协同训练：
协同训练是非常重要的半监督学习，最初是由Tom Mitchell 奠基的理论现在已经成为了一个非常重要的训练范式。其基本的思想是，通过互相训练条件独立的训练器然后把结果进行投票。但是协同训练的基本前提是，训练集是需要在Y的情况下独立，就是conditional indepence. 然而在某些数据的情况是不能这样做，所以后面发展了很多协同训练的理论，例如说Co-random forest 等等。
Tom 论文中主要的算法思想：
L 代表有标记训练集：
U 代表没有标记的训练集：
（1）从U 中抽样，抽出u个案例
用L去训练 H1 训练器
用L去训练 H2训练器
得到两个参数之后：
我们用H1的参数去标记 u的分类， p + n-
我们用H2 的参数去标记u 的分类， p+ n-
把这些分类放到Labeled data 里面
然后在U 中选出样本再放进 u中，补充u
选择k次迭代
我们要注意的是H1,H2用的是同样的分类器例如是Navie Bayes 或者random forest ，然后H1,H2 可以是不同的参数。
而且L对于两个的训练数据可以是不一样的。例如H1就用了weblink上面的字，H2就用了context里面的内容。文章里面比较了supervised learning 和unsupervised learning 的表现准确率，发现H1,H1组合起来的正确率非常高。
Paste_Image.png
但是模型有制约性，就是有违反conditional independece 的条件，他们有很多相关性，并且在设计分类器的时候，要确保分类器的差异性。
Co-forest:
不同于 Tri-Training ，CoForest 算法采用随机森林（Random Forest）来保证各分类器之间的差异性。随机森林是一个若干分类决策树的组合。它采用 Bagging 方法产生各异的训练集同时使用分类回归树作为元分类器。随机森林中单颗子树的生长过程可以概括为：首先可放回的从原标记数据集合中随机选取 n 个示例（采用 Bagging 算法获得）
Co-forest: 分类器：
（1）训练n颗CART树，并且调整参数到最优。
（2）对于每棵树：
加入unlabel的数据，选出在置信度区间theta里面数据并且加进树里面。
不断加入unlabel 数据，终止条件是这一次的迭代错误率大于上一次的就终止
（3）把放进unlabeldata 的数据重新再生成random forest
文章里面的实验结果是，用不同的label 和unlabel 的比例来做实验，发现无论怎样，semi的方法都是比较好的，非常robust.
这个算法的优点是：随机森林有的有点它基本都有了，样本可以减低模型的不稳定性，而且测量的是out-of-bag error. 而且又能确保模型之间的差异性。
Label Propogation:
这个是使用图论的方法来做的，就是首先用所有的data 建立一个图（Graph)，然后利用随机游走的理论来给label data 附近的点来initialize 一个概率，然后用min-cut 的方法来判断出这个点是否属于label附近的点。这个方法像KNN的方法用label data 来找到向邻近的点是否同属于一个分类。
Kaggle 比赛：
我在Forest Cover Type Prediction 当中用了semi-supervised 的方法：
因为training set: 2000
testing set over 10,000
所以加入测试集可以使performance 增加：
Elevation - Elevation in meters
Aspect - Aspect in degrees azimuth 方位角
所有角度以正北方設為000°，順時針轉一圈後的角度為360°。
正北方：000°或360°
正東方：090°
正南方：180°
正西方：270°
Slope - Slope in degrees 坡度
Horizontal_Distance_To_Hydrology - Horz Dist to nearest surface water features 到水文的距离
Vertical_Distance_To_Hydrology - Vert Dist to nearest surface water features 垂直到水文的位置
Horizontal_Distance_To_Roadways - Horz Dist to nearest roadway
到roadways 的距离
Hillshade_9am (0 to 255 index) - Hillshade index at 9am, summer solstice
光的投射度（夏至）
Hillshade_Noon (0 to 255 index) - Hillshade index at noon, summer solstice
光的投射度（夏至）
Hillshade_3pm (0 to 255 index) - Hillshade index at 3pm, summer solstice
光的投射度
Horizontal_Distance_To_Fire_Points - Horz Dist to nearest wildfire ignition points
Wilderness_Area (4 binary columns, 0 = absence or 1 = presence) - Wilderness area designation：
1 - Rawah Wilderness Area
2 - Neota Wilderness Area
3 - Comanche Peak Wilderness Area
4 - Cache la Poudre Wilderness Area
Soil_Type (40 binary columns, 0 = absence or 1 = presence) - Soil Type designation
Cover_Type (7 types, integers 1 to 7) - Forest Cover Type designation
Paste_Image.png
Transformation of the data:
Aspect: 0 north eastnorth 90
distance: hillshade (the change of hillshade)
kick out some multicollineary data: hillshade 3pm hillshade 9am
find out the strong explanation of the variables: such as evaluation (Decision Tree ,single )
elimination of the outliers.
Model Building:
Using Random forest with first trial.
Gradient Boosted Machine (tree)
Add testing data to training set- co forest to train
Spruce and Lodge Poe, hard seperate, so use semi-SVM to train the data and inject biased. The existing feature can not seperate the Spruce and Lodge poe well since their environment is quite similar to each other.
(Using to build a special classifer to them)
迷迷糊糊的外星人
Why Stock Markets CrashThis page intentionally left blankWhy Stock Markets CrashCritical Events in ComplexFinancial SystemsD i d i e r S ...
cs.AI - 人工智能cs.CL - 计算与语言cs.CR - 加密与安全cs.CV - 机器视觉与模式识别cs.CY - 计算与社会cs.DC - 分布式、并行与集群计算cs.DS - 数据结构与算法cs.HC - 人机接口cs.IR - 信息检索cs.IT - 信息论...
astro-ph.IM - 仪器仪表和天体物理学方法cs.AI - 人工智能cs.CE - 计算工程、金融和科学cs.CL - 计算与语言cs.CV - 机器视觉与模式识别cs.CY - 计算与社会cs.DB - 数据库cs.DC - 分布式、并行与集群计算cs.DS -...
文章作者：Tyan博客：noahsnail.com | CSDN | 简书声明：作者翻译论文仅为学习，如有侵权请联系作者删除博文，谢谢！ Batch Normalization: Accelerating Deep Network Training by Reducing...
cond-mat.dis-nn - 无序系统与神经网络cs.AI - 人工智能cs.CL - 计算与语言cs.CR - 加密与安全cs.CV - 机器视觉与模式识别cs.DC - 分布式、并行与集群计算cs.DL - 数字图书馆cs.DS - 数据结构与算法cs.ET - ...
选择篇：我想要什么样的生活，成为什么样的人？还年轻不要太急，体会老话船到桥头自然直！不自觉就期望变得很高！感觉紧张到控制不了自己的心跳与状态工作-我需要经济独立，进行职场锻炼！进入职场尔虞我诈，开始蚁族得奋斗生活！工作类别要和英语金融专业相关，未来发展空间和公司发...
又过了很多个秋已经模糊了我们初遇的时刻课桌换了无数遍新桌旁的人也来来往往只是没有你曾经所有的情愫都被你发觉曾经不敢做的梦都被你实现那些你留给我的 “一百件闺蜜该做的事” 我都还藏在抽屉里呢你偶尔也会想起吗操场两旁永远长不高的松柏树橱窗里已经褪色的校报有...
看了朱老师的分享。我的体会是1《大学》里说的德财的关系，德者本也，财者末也。2社会关系的稳定是需要有德才兼备的人撑起社会的中流砥柱才稳定，而非只是以财产定高低之标准，那就本末倒置了。3历史是重复的，历史也是可以借鉴的。以古之道，以御今之有。
朱老师分享过一句话：...
朋友是某社团新一届队长，以后的社长。(膜拜一下吧，凡人)。今天她找团委。说是第一节上课前，结果没有人。直到第二节体育课下课才看到团委办公室里有了人影。进去后，五分钟左右吧，出来了。永远好奇宝宝的我问她和团委说了什么。她一脸鄙视。团委说她们乐队(社团啦，音乐哒)要...当前位置： >>
半监督学习
半监督学习中的协同训练风范 *周志华南京大学计算机软件新技术国家重点实验室，南京 2100931. 引言在传统的监督学习中，学习器通过对大量有标记的（labeled）训练例进行学习，从而建立模型用于预测未见示例的标记。这里的“标记” （label）是指示例所对应的输出，在分类问题中标记就是示例的类别，而在回归问题中标记就是示例所对应的实值输出。随着数据收集和存储技术的飞速发展，收集大量未标记的（unlabeled）示例已相当容易，而获取大量有标记的示例则相对较为困难，因为获得这些标记可能需要耗费大量的人力物力。例如在计算机辅助医学图像分析中，可以从医院获得大量的医学图像作为训练例，但如果要求医学专家把这些图像中的病灶都标识出来，则往往是不现实的。事实上，在真实世界问题中通常存在大量的未标记示例，但有标记示例则比较少，尤其是在一些在线应用中这一问题更加突出。例如，在进行 Web 网页推荐时，需要用户标记出哪些网页是他感兴趣的，很少会有用户愿意花大量的时间来提供标记，因此有标记的网页示例比较少， Web 但上存在着无数的网页，它们都可作为未标记示例来使用。显然，如果只使用少量的有标记示例，那么利用它们所训练出的学习系统往往很难具有强泛化能力；另一方面，如果仅使用少量“昂贵的”有标记示例而不利用大量“廉价的”未标记示例，则是对数据资源的极大的浪费。因此，在有标记示例较少时，如何利用大量的未标记示例来改善学习性能已成为当前机器学习研究中最受关注的问题之一。目前，利用未标记示例的主流学习技术主要有三大类[Zhou06]，即半监督学习（semi-supervised learning）、直推学习（transductive learning）和主动学习（active learning）。这三类技术都是试图利用大量的未标记示例来辅助对少量有标记示例的学习，但它们的基本思想却有显著的不同。在半监督学习[ChapelleSZ06][Zhu06]中，学习器试图自行利用未标记示例，即整个学习过程不需人工干预，仅基于学习器自身对未标记示例进行利用。直推学习[Vapnik98][Joachims99]与半监督学习的相似之处是它也是由学习器自行利用未标记示例，但不同的是，直推学习假定未标记示例就是测试例，即学习的目的就是在这些未标记示例上取得最佳泛化能力。换句话说，半监督学习考虑的是一个“开放世界” ，即在进行学习时并不知道要预测的示例是什么，而直推学习考虑的则是一个“封闭世界” ，在学习时已经知道了需要预测哪些示例。实际上，直推学习这一思路直接来源于统计学习理论* 本文得到国家自然科学基金()和全国优秀博士学位论文作者专项基金(200343)资助 1[Vapnik98]，并被一些学者认为是统计学习理论对机器学习思想的最重要的贡献 1 。其出发点是不要通过解一个困难的问题来解决一个相对简单的问题。V. Vapnik认为，经典的归纳学习假设期望学得一个在整个示例分布上具有低错误率的决策函数，这实际上把问题复杂化了，因为在很多情况下，人们并不关心决策函数在整个示例分布上性能怎么样，而只是期望在给定的要预测的示例上达到最好的性能。后者比前者简单，因此，在学习过程中可以显式地考虑测试例从而更容易地达到目的。这一思想在机器学习界目前仍有争议，但直推学习作为一种重要的利用未标记示例的技术，则已经受到了众多学者的关注。主动学习[SeungOS92][LewisG94][AbeM98]和前面两类技术不同，它假设学习器对环境有一定的控制能力，可以“主动地”向学习器之外的某个“神谕”(oracle) 2 进行查询来获得训练例的标记。因此，在主动学习中，学习器自行挑选出一些未标记示例并通过神谕查询获得这些示例的标记，然后再将这些有标记示例作为训练例来进行常规的监督学习，而其技术难点则在于如何使用尽可能少的查询来获得强泛化能力。对比半监督学习、直推学习和主动学习可以看出，后者在利用未标记示例的过程中需要与外界进行交互，而前两者则完全依靠学习器自身，正因为此，也有一些研究者将直推学习作为一种半监督学习技术来进行研究。本章的主旨是介绍半监督学习中的协同训练（co-training）这一风范（paradigm），因此，对直推学习和主动学习不再做更多的介绍，仅在第 2 节对半监督学习的概况做一简要描述。第 3 至 5 节将从学习算法、理论分析、实际应用等三个方面来介绍协同训练的研究进展，第 6 节则列出几个可能值得进一步研究的问题。2. 半监督学习一般认为，半监督学习的研究始于 B. Shahshahani 和 D. Landgrebe 的工作[ShahshahaniL94]，但未标记示例的价值实际上早在上世纪 80 年代末就已经被一些研究者意识到了[Lippman89]。D.J. Miller 和 H.S. Uyar [MillerU97]认为，半监督学习的研究起步相对较晚，可能是因为在当时的主流机器学习技术（例如前馈神经网络）中考虑未标记示例相对比较困难。随着统计学习技术的不断发展，以及利用未标记示例这一需求的日渐强烈，半监督学习才在近年来逐渐成为一个研究热点。半监督学习的基本设置是给定一个来自某未知分布的有标记示例集L={(x1, y1), (x2, y2), …, (x |L|, y|L|)}以及一个未标记示例集U = {x1’, x2’, … , x |U|’}，期望学得函数f: X→Y可以准确地对示例x 预测其标记y。这里xi, xj’ ∈X 均为d维向量，yi∈Y为示例xi的标记，|L|和|U|分别为L和U的大小，即它们所1有人认为统计学习理论的最重要贡献是支持向量机，但实际上，支持向量机只是对结构风险最小化原则的一个实现，在处理非线性时用到了核技巧（kernel trick）。结构风险最小化的思想在机器学习中早已有之，只是以往的研究没有适时地总结成一套完整的框架；至于核技巧，则在机器学习和模式识别领域早就在使用了。而直推学习则是和经典的归纳学习很不相同的一个思路。2这里的“神谕”可以是人，也可以是能够为示例提供真实标记的其他过程。 2包含的示例数。在介绍具体的半监督学习技术之前，有必要先探讨一下为什么可以利用未标记示例来改善学习性能。关于这个问题，有不少研究者给出了解释。例如，D.J. Miller 和 H.S. Uyar [MillerU97] 从数据分布估计的角度给出了一个直观的分析。他们假设所有数据服从于某个由 L 个高斯分布混合而成的分布，即f ( x θ ) = ∑ α l f ( x θl )l =1L(1)其中∑L l =1α l = 1 为混合系数，θ = {θ l}为参数。这样，标记就可视为一个由选定的混合成分mi和特征h ( x ) = arg max ∑ j P ( ci = k mi = j , xi ) P ( mi = j xi )k向量xi以概率P(ci | xi, mi) 决定的随机变量。于是，根据最大后验概率假设，最优分类由式 2 给出： (2)其中 P mi = j xi =()α j f xi θ jL l =1 l i()l∑α f ( x θ )。这样，学习目标就变成了利用训练例来估计P(ci = k | mj = j, xi)和P(mi = j | x)。这两项中的第一项与类别标记有关，而第二项并不依赖于示例的标记，因此，如果有大量的未标记示例可用，则意味着能够用于估计第二项的示例数显著增多，这会使得第二项的估计变得更加准确，从而导致式 2 更加准确，也就是说，分类器的泛化能力得以提高。此后，T. Zhang和F. J. Oles [ZhangO00] 进一步分析了未标记示例在半监督学习中的价值，并指出如果一个参数化模型如果能够分解成P(x, y | θ) = P(y | x, θ) P(x | θ) 的形式，那么未标记示例的价值就体现在它们能够帮助更好地估计模型参数从而导致模型性能的提高。实际上，只要能够合理建立未标记示例分布和学习目标之间的联系，就可以利用未标记示例来辅助提高学习性能。在[ShahshahaniL94][MillerU97]中，这一联系是通过对生成式模型（generative model）参数的估计来体现的，但在更一般的情况下就需要在某些假设的基础上来建立未标记示例和目标之间的联系。目前，在半监督学习中有两个常用的基本假设，即聚类假设（cluster assumption）和流形假设（manifold assumption）。聚类假设是指处在相同聚类（cluster）中的示例有较大的可能拥有相同的标记。根据该假设，决策边界就应该尽量通过数据较为稀疏的地方，从而避免把稠密的聚类中的数据点分到决策边界两侧。在这一假设下，大量未标记示例的作用就是帮助探明示例空间中数据分布的稠密和稀疏区域，从而指导学习算法对利用有标记示例学习到的决策边界进行调整，使其尽量通过数据分布的稀疏区域。聚类假设简单、直观，常以不同的方式直接用于各种半监督学习算法的设计中。例如， Joachims T.3[Joachims99] 提出了TSVM算法 3 ，在训练过程中，该算法不断修改SVM的划分超平面并交换超平面两侧某些未标记示例的可能标记，使得SVM在所有训练数据（包括有标记和未标记示例）上最大化间隔（margin），从而得到一个既通过数据相对稀疏的区域又尽可能正确划分有标记示例的超平面； N. D. Lawrence和 M. I. Jordan [LawrenceJ05] 通过修改高斯过程（Gaussian process）中的噪音模型来进行半监督学习，他们在正、反两类之间引入了“零类” ，并强制要求所有的未标记示例都不能被分为零类，从而迫使学习到的分类边界避开数据稠密区域； Grandvalet和Y. Bengio [GrandvaletB05] 通 Y. 过使用最小化熵作为正则化项来进行半监督学习，由于熵仅与模型在未标记示例上的输出有关，因此，最小化熵的直接结果就是降低模型的不确定性，迫使决策边界通过数据稀疏区域。流形假设是指处于一个很小的局部邻域内的示例具有相似的性质，因此，其标记也应该相似。这一假设反映了决策函数的局部平滑性。和聚类假设着眼整体特性不同，流形假设主要考虑模型的局部特性。在该假设下，大量未标记示例的作用就是让数据空间变得更加稠密，从而有助于更加准确地刻画局部区域的特性，使得决策函数能够更好地进行数据拟合。流形假设也可以容易地直接用于半监督学习算法的设计中。例如，J. Zhu 等人 [ZhuGL03] 使用高斯随机场以及谐波函数来进行半监督学习，他们首先基于训练例建立一个图，图中每个结点就是一个（有标记或未标记）示例，然后求解根据流形假设定义的能量函数的最优值，从而获得对未标记示例的最优标记；D. Zhou 等人 [ZhouBLWS04] 在根据示例相似性建立图之后，让示例的标记信息不断向图中的邻近示例传播，直到达到全局稳定状态。值得注意的是，一般情形下，流形假设和聚类假设是一致的。由于聚类通常比较稠密，满足流形假设的模型能够在数据稠密的聚类中得出相似的输出。然而，由于流形假设强调的是相似示例具有相似的输出而不是完全相同的标记，因此流行假设比聚类假设更为一般，这使其在聚类假设难以成立的半监督回归中仍然有效[ZhouL05b][ZhouL07]。根据半监督学习算法的工作方式，可以大致将现有的很多半监督学习算法分为三大类。第一类算法以生成式模型为分类器，将未标记示例属于每个类别的概率视为一组缺失参数，然后采用 EM 算法来进行标记估计和模型参数估计，其代表包括[ShahshahaniL94][MillerU97] [NigamMTM00]等。此类算法可以看成是在少量有标记示例周围进行聚类，是早期直接采用聚类假设的做法。第二类算法是基于图正则化框架的半监督学习算法，其代表包括 [BlumC01][ZhuGL03][BelkinN04] [ZhouBLWS04][BelkinNS05]等。此类算法直接或间接地利用了流形假设，它们通常先根据训练例及某种相似度度量建立一个图，图中结点对应了（有标记或未标记）示例，边为示例间的相似度，然后，定义所需优化的目标函数并使用决策函数在图上的光滑性作为正则化项来求取最优模型参数。第三类算法是协同训练（co-training）算法。此类算法隐含地利用了聚类假设或流形假设，它们使用两个或多个学习器，在学习过程中，这些学习器挑选若干个置信度高的未标记示例进行相互标记，从而使得模型得以更新。在 A. Blum 和 T. Mitchell [BlumM98] 提出最早的协同训练算法后，很多研3这实际上是一个直推算法。 4究者对其进行了研究并取得了很多进展，使得协同训练成为半监督学习中最重要的风范（paradigm）之一，而不再只是一个算法。本章接下来的几节就将对协同训练进行进一步的介绍。3. 协同训练算法最初的协同训练算法（或称为标准协同训练算法）是A. Blum和T. Mitchell [BlumM98] 在 1998 年提出的。他们假设数据集有两个充分冗余（sufficient and redundant）的视图（view），即两个满足下述条件的属性集：第一，每个属性集都足以描述该问题，也就是说，如果训练例足够，在每个属性集上都足以学得一个强学习器；第二，在给定标记时，每个属性集都条件独立于另一个属性集。 A. Blum和T. Mitchell认为，充分冗余视图这一要求在不少任务中是可满足的。例如，在一些网页分类问题上，既可以根据网页本身包含的信息来对网页进行正确分类，也可以利用链接到该网页的超链接所包含的信息来进行正确分类，这样的网页数据就有两个充分冗余视图，刻画网页本身包含的信息的属性集构成第一个视图，而刻画超链接所包含的信息的属性集构成第二个视图。A. Blum和T. Mitchell的算法在两个视图上利用有标记示例分别训练出一个分类器，然后，在协同训练过程中，每个分类器从未标记示例中挑选出若干标记置信度（即对示例赋予正确标记的置信度）较高的示例进行标记，并把标记后的示例加入另一个分类器的有标记训练集中，以便对方利用这些新标记的示例进行更新。协同训练过程不断迭代进行，直到达到某个停止条件。该算法如图 1 所示，其中x1和x2分别指示例x在第 1 视图和第 2 视图上对应的示例。A. Blum和T. Mitchell [BlumM98] 对图 1 的算法进行了分析，证明了在充分冗余视图这一条件成立时，图 1 算法可以有效地通过利用未标记示例提升学习器的性能，实验也验证了该算法具有较好的性能。Input: the labeled training set L the unlabeled training set U Process: Create a pool U’ of examples by choosing u examples at random from U Loop for k iterations: Use L to train a classifier h1 that considers only the x1 portion of x Use L to train a classifier h2 that considers only the x2 portion of x Allow h1 to label p positive and n negative examples from U’ Allow h2 to label p positive and n negative examples from U’ Add these self-labeled examples to L Randomly choose 2p+2n examples from U to replenish U’图1 标准协同训练算法 [BlumM98]然而，在真实问题中充分冗余视图这一要求往往很难得到满足。实际上，即使对 A. Blum 和 T. Mitchell 所举的网页分类的例子来说也是这样，因为“网页本身的信息”这一视图与“超链接上的信5息”这一视图很难满足条件独立性。K. Nigam 和 R. Ghani [NigamG] 对协同训练算法在不具有充分冗余视图的问题上的性能进行了实验研究，其结果表明，在属性集充分大时，可以随机把属性集划分成两个视图，在此基础上进行协同训练也可能取得较好的效果。遗憾的是，大多数的问题并不具有“充分大”的属性集，而且随机划分视图这一策略并非总能奏效，因此，一些研究者开始试图设计不需要充分冗余视图的协同训练算法。 S. Goldman 和 Y. Zhou [GoldmanZ00] 提出了一种不需要充分冗余视图的协同训练算法。他们使用不同的决策树算法，从同一个属性集上训练出两个不同的分类器，每个分类器都可以把示例空间划分为若干个等价类。在协同训练过程中，每个分类器通过统计技术来估计标记置信度，并且把标记置信度最高的示例进行标记后提交给另一个分类器作为有标记训练例，以便对方进行更新。该过程反复进行，直到达到某个停止条件。在预测阶段，该算法先估计两个分类器对未见示例的标记置信度，然后选择置信度高的分类器进行预测。S. Goldman 和 Y. Zhou 将该算法建立在 A. Angluin 和 P. Laird [AngluinL88] 的噪音学习理论的基础上，并通过实验对算法性能进行了验证。此后，他们 [ZhouG04] 又对该算法进行了扩展，使其能够使用多个不同种类的分类器。虽然 S. Goldman 和 Y. Zhou 的算法 [GoldmanZ00] 不再要求问题本身具有充分冗余视图，但他们引入了对分类器种类的限制。此外，他们为了估计标记置信度，在挑选未标记示例进行标记的过程中以及选择分类器对未见示例进行预测的过程中频繁地使用 10 倍交叉验证，时间开销很大。同时，在少量有标记数据上进行 10 倍交叉验证经常难以得到对置信度的稳定估计。为了进一步放松协同训练的约束条件，Z.-H. Zhou 和 M. Li [ZhouL05a] 提出了一种既不要求充分冗余视图、也不要求使用不同类型分类器的 tri-training 算法。该算法的一个显著特点是使用了三个分类器，不仅可以简便地处理标记置信度估计问题以及对未见示例的预测问题，还可以利用集成学习（ensemble learning） [Dietterich00] 来提高泛化能力。该算法首先对有标记示例集进行可重复取样（bootstrap sampling）以获得三个有标记训练集，然后从每个训练集产生一个分类器。在协同训练过程中，各分类器所获得的新标记示例都由其余两个分类器协作提供，具体来说，如果两个分类器对同一个未标记示例的预测相同，则该示例就被认为具有较高的标记置信度，并在标记后被加入第三个分类器的有标记训练集。在对未见示例进行预测时，tri-training 算法不再象以往算法那样挑选一个分类器来使用，而是使用集成学习中经常用到的投票法来将三个分类器组成一个集成来实现对未见示例的预测。与以往协同训练算法需要显式地对标记置信度进行估计不同， tri-training 算法通过判断三个分类器的预测一致性来隐式地对不同未标记示例的标记置信度进行比较，这一做法使得该算法不需要频繁地使用耗时的统计测试技术。但与显式估计标记置信度相比，这一隐式处理往往不够准确，特别是如果初始分类器比较弱，未标记示例可能被错误标记，从而给第三个分类器的训练引入噪音。 Z.-H. Zhou 和 M. Li [ZhouL05a] 基于噪音学习理论 [AngluinL88] 推导出了能以较高概率确保这一做法有效的条件，直观地说，如果大多数未标记示例的标记是准确的，那么引入的噪音所带来的负面影响6可以被使用大量未标记示例所带来的好处抵消。为了进一步降低噪音影响，有必要使用一些更可靠的误差估计技术，但这会在一定程度上增大算法的开销。此后，M. Li 和 Z.-H. Zhou [LiZ07] 对 tri-training 进行了扩展，提出了可以更好发挥集成学习作用的 Co-Forest 算法。Tri-training 算法最近被 D. Mavroeidis 等人 [MavroeidisCPCV06] 用来参加欧洲机器学习/数据挖掘竞赛 ECML/PKDD 2006 Discovery Challenge 并获得了较好的名次。以往的半监督学习研究几乎都是关注分类问题 4 ，虽然在监督学习中回归问题的重要性不亚于分类问题，半监督回归却一直缺乏研究。如第二节所述，在半监督回归中由于示例的标记是实值输出，因此聚类假设不再成立，但半监督学习的流形假设仍然是成立的，而且因为回归输出通常具有平滑性，所以流形假设在回归问题中可能比在分类问题中更加有效。因此，如Zhu [Zhu06] 所述，一些基于流形假设的半监督学习技术，例如图正则化算法，在理论上是可以推广到半监督回归中去的。但实际上，此类技术由于要先建立图再进行标记传播，因此若直接推广则只能进行直推回归，要进行半监督回归还需要做一些其他处理。 Z.-H. Zhou和M. Li [ZhouL05b] 最早使用协同训练技术进行半监督回归。在回归问题中，由于示例的属性是连续的实数值，这就使得以往协同训练算法中所使用的标记置信度估计技术难以直接使用。为此，他们提出了一个选择标记置信度最高的未标记示例的准则――标记置信度最高的未标记示例是在标记后与学习器的有标记训练集最一致的示例。更严格的表述是，令h表示当前学习器学得的模型，L表示有标记示例集，xu∈U表示一个未标记示例，h’表示把h标记过的示例(xu , h(xu))加入训练集后重新训练得到的学习器，则标记置信度最高的未标记示例是在U中最大化式 3 的示例。Δu =1 |L |xi ∈ L∑ (yi? h ( xi))2?1 |L |xi ∈ L∑ (yi? h ′ ( xi))2(3)实际上， 3 也可以用于半监督分类。式基于式 3， Z.-H. Zhou 和 M. Li [ZhouL05b] 提出了 COREG 算法，该算法不要求充分冗余视图，而是通过使用同一学习器的不同参数设置来生成两个初始学习器。具体来说，他们使用了基于不同阶 Minkowski 距离的两个 k 近邻回归模型作为学习器，在协同训练过程中，两个学习器根据式 3 挑选未标记示例进行标记供对方进行更新。最后的回归预测通过对两个 k 近邻回归模型预测值的平均来完成。此后，他们 [ZhouL07] 又将 COREG 推广到使用不同距离度量、不同近邻个数以及其他回归模型的情况。最近，U. Brefeld 等人 [BrefeldGSW06] 把基于协同训练的半监督回归思想移植到正则化框架下，通过最小化不同视图下回归模型对未标记示例的预测差异来改善各视图的回归模型，也取得了很好的效果。4半监督聚类已有不少研究，但由于聚类本身是一种非监督学习技术，因此半监督聚类的出发点与半监督分类、回归等期望利用大量未标记示例来辅助对少量有标记示例的学习很不相同，而且其所利用的额外信息也并非未标记示例，而是有标记示例、示例相似性约束等，所以，本章未对半监督聚类进行讨论。 74. 协同训练理论分析在提出标准协同训练算法时， Blum和T. Mitchell [BlumM98] 就对该技术能够奏效的原因进行 A. 了探讨。令X1和X2分别表示X的两个视图，则一个示例就可以表示为(x1, x2)，其中x1是x在X1视图中的特征向量，x2则是其在X2视图中的特征向量。假设f是在示例空间X中的目标函数，若x的标记为l则应有f(x) = f1(x1) = f2(x2) = l。因此，A. Blum和T. Mitchell定义了所谓的“相容性” （compatibility），即对 X上的某个分布D， 1和C2分别是定义在X1和X2上的概念类， C 如果D对满足f1(x) ≠ f2(x2) 的示例 (x1, x2) 指派零概率，则称目标函数f = (f1, f2) ∈ C1 × C2与D“相容” 。基于相容性概念，A. Blum和T. Mitchell揭示了协同训练设置下的一个有趣的现象――即使C1和 C2是复杂度很高（VC-维很高）的大概念类，与分布D相容的目标概念集相对来说仍然可能会小得多、简单得多。这样，就有可能利用未标记示例来辅助探查哪些目标概念是相容的，而该信息有助于减少学习算法所需的有标记示例数。他们借助于图 2 来直观地展示这一现象。图中二部图左边的每个结点对应了X1中的一个特征向量，右边的每个结点对应了X2中的一个特征向量，当且仅当示例(x1, x2) 在分布D下以非零概率存在时，结点x1和x2之间才存在边，这些边在图中已经用线条标示出来，其中用实边标示的边对应了已经观察到的未标记示例。在这一表示下，C中与D相容的概念就对应了在图中连通成分之间没有交叉线的划分。显然，属于同一连通成分的示例必然属于同样的类别，而未标记示例可以帮助学习算法了解图中的连通性（实际上也就是了解分布D），因此，通过利用未标记示例，学习算法可以使用较少的有标记示例达到原来需要更多的有标记示例才能达到的效果。图2示例分布的二部图表示 [BlumM98]进一步，A. Blum和T. Mitchell [BlumM98] 证明了一个定理：如果C2在有分类噪音时是PAC可学习的，并且两个视图具有条件独立性，那么给定一个初始的弱有效（weakly-useful）学习器h(x1)，协同训练算法只需使用未标记示例就可以学得(C1, C2)。这是一个非常强的结论，它意味着只要两个视图的条件独立性成立，那么通过协同训练技术，仅利用未标记示例就可以将一个从有标记示例学得的弱学习器提升到任意精度。 A. Blum 和 T. Mitchell 没有推导出协同训练算法的泛化误差界，为此， Dasgupta 等人 [DasguptaLM02] 进行了研究。令S表示一个独立同分布取样；对断言Φ[s]，令S(Φ)表示S中满足该断言的子集{sj: Φ[sj]}；对两个断言Φ和Ψ，定义经验估计 P Φ Ψ = S ( Φ ∧ Ψ ) / S ( Ψ ) ；令k表示类8()别数；如果学习器h无法判断x的类别，则表示为h(x) = ⊥；令|h|表示对h的复杂度的一个度量。 Dasgupta 等人推导出这样的结论：在S上至少以 1-δ 的概率，对任何一对h1和h2来说只要对所有的 1≤ i ≤ k都有γi (h1, h2, δ /2) &0 以及bi(h1, h2, δ /2) ≤ (k -1)/k，就有error ( h1 ) ≤ P ( h1 ≠⊥ ) ? ε ( h1 , δ / 2 ) max b j ( h1 , h2 , δ / 2 ) +j()k ?1 P ( h1 =⊥ ) + ε ( h1 , δ / 2 ) k()(4)其中 ε ( k , δ ) =k ln 2 + ln 2 / δ ， 2S1 P ( h1 ≠ i h2 = i, h1 ≠⊥ ) + ε i ( h1 , h2 , δ ) γ i ( h1 , h2 , δ )bi ( h1 , h2 , δ ) =()ε i ( h1 , h2 , δ ) =( ln 2 ) ( h1 + h2 ) + ln δ 2 S ( h2 = i, h1 ≠⊥ )2kγ i ( h1 , h2 , δ ) = P ( h1 = i h2 = i, h1 ≠⊥ ) ? P ( h1 ≠ i h2 = i, h1 ≠⊥ ) ? 2ε i ( h1 , h2 , δ )值得注意的是，A. Blum 和 T. Mitchell 的工作以及 Dasgupta 等人的工作都假定两个视图间的条件独立性假设成立，但如本章第三节所述，实际上该假设通常是不成立的。这就使得 A. Blum 和 T. Mitchell 的分析结论以及 Dasgupta 等人所推出的协同训练误差上界实际上都只能是理想情况，未必能够适用于实际情况。 M.-F. Balcan等人 [BalcanBY05] 进行了进一步的研究，发现对协同训练技术来说，如果在每个视图上有合适的强学习器，则两个视图的条件独立性假设甚至连弱独立性假设 [Abney02] 都不是必需的，只要数据分布满足比上述假设弱得多的“扩张性” （expansion）假设，迭代式的协同训练算法就可以奏效。 “扩张性”是如下定义的：令X+表示X中的正区域，D+表示D在X+上的分布；对S1 ? X1和 S2 ? X2，令Si (i = 1,2) 表示示例(x1, x2)有xi ∈ Si；令P(S1 ∧ S2)表示对S1和S2都确信的概率，P(S1
S2) 表示对S1和S2中至少一个确信的概率；令Hi ∩ Xi+表示{h ∩ Xi+ : h ∈ Hi }，其中Hi（i = 1,2）是假设类。若式 5 对任何S1 ? X1 + 和S2 ? X2 +都成立，则称D+是ε 扩张的 ε-expanding）若式 5 对任何S1 ? H1 ∩ （； X1 + 和S2 ? H2 ∩X2 +都成立，则称D+对假设类H1 × H2来说是ε 扩张的。P ( S1
S 2 ) ≥ ε min P ( S1 ∧ S 2 ) , P S1 ∧ S 2(())(5)直观地说，在满足扩张性的数据分布上，对一个与视图j（j =1,2）上的模型所对应的较小的确信集（confidence set）Sj来说，可以利用Sj所导出的另一个视图 3-j上的条件分布对该视图上的正例进行采样，如果利用采样所得的示例学得一个误差小于ε的模型，那么在视图 3-j上的示例出现在该模型所对应的确信集S3-j中的概率将大于出现在Sj中的概率。值得注意的是，实际使用的协同训练算法（例如第三节中描述的算法）实际上都是迭代式协同9训练算法，而通常在每个视图上使用的都是强学习器 5 ，因此，M.-F. Balcan等人的工作在一定程度上解释了为什么两个视图的条件独立性虽然通常不成立，但协同训练算法仍能取得好的效果。最近，W. Wang 和 Z.-H. Zhou [WangZ07]又做了进一步的分析。一方面，他们证明了只要两个学习器有较大的差异，就可以通过协同训练来利用未标记示例提高学习性能。这不仅解释了为什么在两个视图的条件独立性不成立时协同训练算法可以有好的效果，还解释了那些根本不利用两个视图的算法，例如[GoldmanZ00][ZhouL05b]等奏效的原因。另一方面，从以往的理论分析来看，使用协同训练总可以使得泛化能力提高，甚至可以将弱学习器提升到任意精度；然而，在实际使用协同训练时往往出现这样的情况，即在若干轮协同训练之后如果再继续进行下去，不仅不能改善学习结果，有时甚至会导致性能下降。W. Wang 和 Z.-H. Zhou [WangZ07]对此问题也给出了理论解释。5. 协同训练的应用自然语言处理是协同训练技术应用得最为广泛的一个领域。实际上，该领域的研究者在协同训练技术出现之前就已经意识到可以利用问题本身具有的不同属性集来建立模型。例如，D. Yarowsky [Yarowsky95] 在研究词义消歧时，通过同时使用词的局部上下文以及词在文档其他部分出现时的含义这两部分信息，有效减少了对人工标注数据的需求量；E. Riloff 和 R. Jones [RiloffJ99] 在对名词短语进行地理位置分类时，同时考虑了名词短语本身及其出现的上下文；M. Collins 和 Y. Singer [CollinsS99] 进行名实体识别时，也同时使用了名实体的拼写信息及名实体出现的上下文信息。 A. Blum 和 T. Mitchell 提出标准协同训练算法后，协同训练技术很快就在自然语言处理领域受到了重视。 Pierce 和 C. Cardie [PierceC01] 将协同训练算法用于名词短语识别， D. 他们把当前词及在文档中出现在该词前的 k 个词作为一个视图，把该词及出现在其后的另外 k 个词作为另外一个视图，然后在两个视图上利用协同训练算法进行训练。为了适应多类分类问题，他们还对标准协同训练算法进行了改进。他们的研究结果表明，在使用协同训练技术利用未标记示例后，识别错误率比仅使用有标记示例时下降了 36%。 Sarkar [Sarkar01] 将句法分析器分解为两个相关模型， A 其中一个负责基于上下文挑选出合适的分析树（parsing tree），另一个则负责计算分析树间的关系并且给出最优的分析结果。在学习过程中，两个模型通过利用未标记示例进行协同训练，每个模型都利用对方提供的信息来帮助自己排除部分句法分析中的不确定因素。其结果表明，通过协同训练学得的句法分析器在精度（precision）和召回率（recall）方面都有显著提高。M. Steedman 等人 [SteedmanOSCHH03] 也提出了一种基于协同训练的统计句法分析方法，与 A. Sarkar 的方法不同，他们使用了两个不同的但功能完整的统计句法分析器进行协同训练。在训练过程中，每个分析器根据自己对未分析句子的5虽然A. Blum和T. Mitchell [BlumT98] 的理论结果表明弱学习器就够用了，但他们在实验中仍然使用了强学习器。一般来说，在理论分析时为了便于讨论算法的能力通常使用弱学习器；而在实际使用时为了得到更好的性能通常使用强学习器。 10分析结果利用某个函数进行打分，作为对该句子分析的置信度，然后把得分最高的若干个示例提交给对方使用。他们的研究结果也证实，使用协同训练技术可以显著提高句法分析器的性能。R. Hwa 等人 [HwaOSS03] 提出了一种基于协同训练的主动半监督句法分析方法，在学习过程中，一个学习器挑选并标记自己最确定的示例给另一个学习器，而另一个学习器则挑选自己最不确定的示例请用户标记后再提交给该学习器用于模型更新。他们的研究结果表明该方法可以减少大约一半的人工标记量。协同训练技术的另一个重要应用领域是基于内容的图像检索（CBIR）。CBIR 要求检索系统能够根据用户提供的查询图像自动地从图像库中检索出相似图像。在检索过程中通常会利用相关反馈（relevance feedback）来提高性能。具体来说，系统将检索结果提供给用户后，如果用户不满意，就可以从中选择一些图像并标示出其是否是期望的图像，然后系统根据这些信息再重新进行检索。该过程可能会反复进行多轮，直到用户满意或丧失信心为止。值得注意的是，在 CBIR 过程中，即使将用户在相关反馈过程中提供的信息考虑进来，有标记图像的数目仍然是比较少的，因为很少有用户会愿意花大量的时间来提供反馈；但图像库中却通常存在大量的图像，这些图像都是未标记的，因为在查询之前无法事先判断它们是否与查询相关。显然，CBIR 任务是典型的有标记示例很少、未标记示例非常多的任务。因此，基于内容的图像检索是利用未标记示例的学习技术的很好的试验场，另一方面，通过引入这些学习技术可能有助于突破 CBIR 的技术瓶颈 [Zhou06]。 Zhou 等人 [ZhouCJ04][ZhouCD06] 将协同训练引入 CBIR，提出了基于协同训练的主动半监督相关反馈方法。他们在每一轮相关反馈后，利用现有的有标记示例训练两个基于距离度量的简单学习器，然后两个学习器分别对图像库中的图像进行预测从而产生两个排序，排在最前面的是置信度最高的相关图像，排在最后面的是置信度最高的不相关图像，而排在中间的则是置信度比较低的图像。基于这两个排序，两个学习器分别将自己最确定的相关图像和最确定的不相关图像传递给对方，然后两个学习器利用这些新的有标记图像进行更新。更新后的学习器再对图像库中的图像进行预测从而产生两个排序，通过结合这两个排序就得到一个总排序。基于总排序，系统把排在最前面的若干幅图像作为检索结果反馈给用户，而把排在中间的若干幅图像放入反馈池（feedback pool）中，供用户在进行下一轮相关反馈时进行标示。在 COREL 图像库上的实验表明，该技术通过在协同训练设置下结合半监督学习和主动学习，可以有效地利用图像库中的图像来提高检索性能。6. 结束语从上世纪 90 年代末标准协同训练算法被提出开始，很多研究者对协同训练技术进行了研究，不仅提出了很多学习方式不同、限制条件强弱各异的算法，对协同训练的理论分析和应用研究也取得了不少进展，使得协同训练成为半监督学习中最重要的风范之一。但至少在目前，针对协同训练风范仍然存在很多值得进一步研究的问题：11由于协同训练是一种半监督学习技术，因此半监督学习领域存在的主要问题在协同训练风范中都存在。例如，在通过半监督学习利用未标记示例后，有时不仅不能提高泛化能力，反而会使得性能下降。一般认为，在模型假设不符合真实情况 [CohenCSCH04][CozmanC02] 或者未标记示例的分布与有标记示例的分布有较大差异 [TianYXS04] 时，进行半监督学习有可能导致性能下降。另一方面，随着训练不断进行，自动标记的示例中的噪音会不断积累，其负作用会越来越大。利用数据审计（data editing）技术来发现和处理这些噪音数据，也许是一条可能的途径， Li 和 Z.-H. Zhou [LiZ04] M. 对此进行了初步的尝试。总的来说，找到未标记示例导致性能下降的真正原因，有助于更好地发挥半监督学习技术的效用。目前虽然有了很多协同训练算法，但这些算法都有自身的弱点。如何设计出更强有力的协同训练算法，一直是该领域的重要研究内容。现有对协同训练的理论分析虽然揭示了协同训练的一些内在机理，但是很多分析都建立在一些较强的假设条件上。现在已经知道，在这些较强的假设条件不满足的情况下，协同训练技术仍然能够取得较好的效果。因此，在更一般、更接近真实情况的条件下对协同训练进行理论分析，是一个需要努力的方向。将协同训练技术投入到更多的应用中去，基于协同训练技术研制出实用系统，也是该领域重要的研究内容。值得注意的是，A. Blum 和 T. Mitchell [BlumM98] 利用数据不同视图的思想受到了机器学习界的很大重视，为“多视图学习” （multi-view learning）这一新的研究领域奠定了基础，这也使得协同训练风范的影响超越了半监督学习领域。例如，I. Muslea 等人 [MusleaMK00][MusleaMK02] 将协同训练的思想引入主动学习，他们在两个视图上分别建立分类器，然后选择两个分类器预测差异最大的示例进行查询。对多视图学习的算法、理论、应用进行研究，是今后的重要研究内容。到目前为止，对协同训练的研究主要是在机器学习算法这一层面开展的 6 ，但笔者认为，协同训练除了在机器学习算法方面具有重要性，深入研究协同训练机制对理解和模仿人类的学习行为也有重要的意义。例如，人类在对外界事物进行学习时，不同感官对同一事物的感知能力通常是不同的，但在学习之后，不同感官对此类事物的感知能力往往都会得到提高。如果把同一事物在不同感官上的反映看作同一示例在不同视图下的特征向量，则学习之后感知能力的提高有可能是因为不同视图下的学习器互相提供了信息。再如，人类在集体环境下进行学习时，如果把每个人看作一个学习器，则即使对同样的事物，不同的人学得的结果也可能是显著不同的，而人们可以通过互相学习来提高自己的能力，这恰恰与协同训练非常相似。笔者认为，通过借鉴人类学习行为，有可能产生更强有力的协同训练技术，而机器学习中对协同训练技术的研究，也许能够为认知科学中对学习的研究提供启示和实验手段。6虽然本章谈到了学习算法、理论分析、实际应用等方面，但其实机器学习的核心研究内容就是“算法” 。这里的“算法”是广义的，不仅包含了学习算法本身，还包含了对算法性质的理论分析或对算法设计的理论讨论，以及对算法的应用等。实际上，计算机科学大多数领域的核心研究内容都是“算法” 。 12参考文献[AbeM98] N. Abe, H. Mamitsuka. Query learning strategies using boosting and bagging. In: Proceedings of the 15th International Conference on Machine Learning (ICML’98), Madison, WI, . [Abney02] S. Abney. Bootstrapping. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL’02), Philadelphia, PA, 7. [AngluinL88] D. Angluin, P. Laird. Learning from noisy examples. Machine Learning, ): 343-370. [BalcanBY05] M.-F. Balcan, A. Blum, K. Yang. Co-training and expansion: Towards bridging theory and practice. In: L. K. Saul, Y. Weiss, L. Bottou, eds. Advances in Neural Information Processing Systems 17, Cambridge, MA: MIT Press, . [BelkinN04] M. Belkin, P. Niyogi. Semi-supervised learning on Riemannian manifolds. Machine Learning, -3): 209-239. [BelkinNS05] M. Belkin, P. Niyogi, V. Sindwani. On manifold regularization. In: Proceedings of the 10th International Workshop on Artificial Intelligence and Statistics (AISTATS’05), Savannah Hotel, Barbados, . [BlumC01] A. Blum, S. Chawla. Learning from labeled and unlabeled data using graph mincuts. In: Proceedings of the 18th International Conference on Machine Learning (ICML’01), San Francisco, CA, . [BlumM98] A. Blum, T. Mitchell. Combining labeled and unlabeled data with co-training. In: Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT’98), Wisconsin, MI, . [BrefeldGSW06] U. Brefeld, T. G?rtner, T. Scheffer, S. Wrobel. Efficient co-regularised least squares regression. In: Proceedings of the 23rd International Conference on Machine Learning (ICML’06), Pittsburgh, PA, 4. [ChapelleSZ06] O. Chapelle, B. Sch?lkopf, A. Zien, eds. Semi-Supervised Learning, Cambridge, MA: MIT Press, 2006. [CohenCSCH04] I. Cohen, F. G. Cozman, N. Sebe, M. C. Cirelo, T. S. Huang. Semisupervised learning of classifiers: Theory, algorithm, and their application to human-computer interaction. IEEE Transactions on Pattern Analysis and Machine Intelligence, ): . [CollinsS99] M. Collins, Y. Singer. Unsupervised models for named entity classifications. In: Proceedings of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora (EMNLP/VLC’99), College Park, MD, 0. [CozmanC02] F. G. Cozman and I. Cohen. Unlabeled data can degrade classification performance of generative classifiers. In: Proceedings of the 15th International Conference of the Florida Artificial Intelligence Research Society (FLAIRS’02), Pensacola, FL, 1. [DasguptaLM02] S. Dasgupta, M. Littman, D. McAllester. PAC generalization bounds for co-training. In: T. G. Dietterich, S. Becker, Z. Ghahramani, eds. Advances in Neural Information Processing Systems 14, Cambridge, MA: MIT Press, 2. [Dietterich00] T. G. Dietterich. Ensemble methods in machine learning. In: Proceedings of the 1st International Workshop on Multiple Classifier Systems (MCS’00), Cagliari, Italy, LNCS , 1-15. [GoldmanZ00] S. Goldman, Y. Zhou. Enhancing supervised learning with unlabeled data. In: Proceedings of the1317th International Conference on Machine Learning (ICML’00), San Francisco, CA, 4. [GrandvaletB05] Y. Grandvalet, Y. Bengio. Semi-supervised learning by entropy minimization. In: L. K. Saul, Y. Weiss, and L. Bottou, eds. Advances in Neural Information Processing Systems 17, Cambridge, MA: MIT Press, 6. [HwaOSS03] R. Hwa, M. Osborne, A. Sarkar, M. Steedman. Corrected co-training for statistical parsers. In: Working Notes of the ICML’03 Workshop on the Continuum from Labeled to Unlabeled Data in Machine Learning and Data Mining, Washington, DC, 2003. [Joachims99] T. Joachims. Transductive inference for text classification using support vector machines. In: Proceedings of the 16th International Conference on Machine Learning (ICML’99), Bled, Slovenia, 9. [LawrenceJ05] N. D. Lawrence, M. I. Jordan. Semi-supervised learning via Gaussian processes. In: L. K. Saul, Y. Weiss, and L. Bottou, eds. Advances in Neural Information Processing Systems 17, Cambridge, MA: MIT Press, 0. [LewisG94] D. Lewis, W. Gale. A sequential algorithm for training text classifiers. In: Proceedings of the 17th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR’94), Dublin, Ireland, . [LiZ05] M. Li, Z.-H. Zhou. SETRED: Self-training with editing. In: Proceedings of 9th Pacific-Asia Conference on Knowledge Discovery and Data Mining (PAKDD’05), Hanoi, Vietnam, LNAI , 611-621. [LiZ07] M. Li, Z.-H. Zhou. Improve computer-aided diagnosis with machine learning techniques using undiagnosed samples. IEEE Transactions on Systems, Man and Cybernetics C Part A, in press [Lippmann89] R. P. Lippmann. Pattern classification using neural networks. IEEE Communications, ): 47-64. [MavroeidisCPCV06] D. Mavroeidis, K. Chaidos, S. Pirillos, D. Christopoulos, M. Vazirgiannis. Using tri-training and support vector machines for addressing the ECML/PKDD 2006 discovery challenge. In: Proceedings of the ECML-PKDD Discovery Challenge Workshop, Berlin, Germany, . [MillerU97] D. J. Miller, H. S. Uyar. A mixture of experts classifier with learning based on both labelled and unlabelled data. In: M. Mozer, M. I. Jordan, T. Petsche, eds. Advances in Neural Information Processing Systems 9, Cambridge, MA: MIT Press, 7. [MusleaMK00] I. Muslea, S. Minton, C. A. Knoblock. Selective sampling with redundant views. In: Proceedings of the 17th National Conference on Artificial Intelligence (AAAI'00), Austin, TX, 6. [MusleaMK02] I. Muslea, S. Minton, C. A. Knoblock. Active + semi-supervised learning = robust multi-view learning. In: Proceedings of the 19th International Conference on Machine Learning (ICML’02), Sydney, Australia, 2. [NigamG03] K. Nigam, R. Ghani. Analyzing the effectiveness and applicability of co-training. In: Proceedings of the 9th ACM International Conference on Information and Knowledge Management (CIKM’00), McLean, VA, . [NigamMTM00] K. Nigam, A. K. McCallum, S. Thrun, T. Mitchell. Text classification from labeled and unlabeled documents using EM. Machine Learning, -3): 103-134.14[PierceC01] D. Pierce, C. Cardie. Limitations of co-training for natural language learning from large data sets. In: Proceedings of the 6th Conference on Empirical Methods in Natural Language Processing (EMNLP’01), Pittsburgh, PA, . [RiloffJ99] E. Riloff, R. Jones. Learning dictionaries for information extraction by multi-level bootstrapping. In: Proceedings of the 16th National Conference on Artificial Intelligence (AAAI’99), Orlando, FL, 9. [Sarkar01] A. Sarkar. Applying co-training methods to statistical parsing. In: Proceedings of the 2nd Annual Meeting of the North American Chapter of the Association for Computational Linguistics (NAACL’01), Pittsburgh, PA, . [SeungOS92] H. Seung, M. Opper, H. Sompolinsky. Query by committee. In: Proceedings of the 5th ACM Workshop on Computational Learning Theory (COLT’92), Pittsburgh, PA, 4. [ShahshahaniL94] B. Shahshahani, D. Landgrebe. The effect of unlabeled samples in reducing the small sample size problem and mitigating the hughes phenomenon. IEEE Transactions on Geoscience and Remote Sensing, ): . [SteedmanOSCHH03] M. Steedman, M. Osborne, A. Sarkar, S. Clark, R. Hwa, J. Hockenmaier, P. Ruhlen, S. Baker, J. Crim. Bootstrapping statistical parsers from small data sets. In: Proceedings of the 10th Conference on the European Chapter of the Association for Computational Linguistics (EACL’03), Budapest, Hungary, 8. [TianYXS04] Q. Tian, J. Yu, Q. Xue, N. Sebe. A new analysis of the value of unlabeled data in semi-supervised learning for image retrieval. In: Proceedings of the IEEE International Conference on Multimedia Expo (ICME’04), Taibei, -1022. [Vapnik98] V. N. Vapnik. Statistical Learning Theory, New York: Wiley, 1998. [WangZ07] W. Wang, Z.-H. Zhou. Analyzing co-training style algorithms. In: Proceedings of the 18th European Conference on Machine Learning (ECML’07), Warsaw, Poland, 2007. [Yarowsky95] D. Yarowsky. Unsupervised word sense disambiguation rivaling supervised methods. In: Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics (ACL’95), Cambridge, MA, 6. [ZhangO00] T. Zhang, F. J. Oles. A probability analysis on the value of unlabeled data for classification problems. In: Proceedings of the 17th International Conference on Machine Learning (ICML’00), San Francisco, CA, -1198. [ZhouBLWS04] D. Zhou, O. Bousquet, T. N. Lal, J. Weston, B. Sch?lkopf. Learning with local and global consistency. In: S. Thrun, L. Saul, B. Sch?lkopf, eds. Advances in Neural Information Processing Systems 16, Cambridge, MA: MIT Press, 8. [ZhouG04] Y. Zhou, S. Goldman. Democratic co-learning. In: Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence (ICTAI’04), Boca Raton, FL, 2. [Zhou06] Z.-H. Zhou. Learning with unlabeled data and its application to image retrieval. In: Proceedings of the 9th Pacific Rim International Conference on Artificial Intelligence (PRICAI'06), Guilin, China, LNAI , 5-10.15[ZhouCD06] Z.-H. Zhou, K.-J. Chen, H.-B. Dai. Enhancing relevance feedback in image retrieval using unlabeled data. ACM Transactions on Information Systems, ): 219-244. [ZhouCJ04] Z.-H. Zhou, K.-J. Chen, Y. Jiang. Exploiting unlabeled data in content-based image retrieval. In: Proceedings of the 15th European Conference on Machine Learning (ECML’04), Pisa, Italy, LNAI , 525-536. [ZhouL05a] Z.-H. Zhou and M. Li. Tri-training: Exploiting unlabeled data using three classifiers. IEEE Transactions on Knowledge and Data Engineering, ): . [ZhouL05b] Z.-H. Zhou, M. Li. Semi-supervised learning with co-training. In: Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI’05), Edinburgh, Scotland, 3. [ZhouL07] Z.-H. Zhou, M. Li. Semi-supervised learning with co-training style algorithm. IEEE Transactions on Knowledge and Data Engineering, ). [Zhu06] X. Zhu. Semi-supervised learning literature survey. Technical Report 1530, Department of Computer Sciences, University of Wisconsin at Madison, Madison, WI, Apr. 2006. [ZhuGL03] X. Zhu, Z. Ghahramani, J. Lafferty. Semi-supervised learning using Gaussian fields and harmonic functions. In: Proceedings of the 20th International Conference on Machine Learning (ICML’03), Washington, DC, 9.16
更多搜索：
赞助商链接
All rights reserved Powered by
文档资料库内容来自网络，如有侵犯请联系客服。}

我爱游戏网