机器学习 一 监督学习和无监督学习的区别 / 蓝讯

5923人阅读
Machine Learning(5)
**************************************
注:本系列博客是博主学习Stanford大学 Andrew Ng 教授的《机器学习》课程笔记。博主深感学过课程后,不进行总结很容易遗忘,根据课程加上自己对不明白问题的补充遂有此系列博客。本系列博客包括线性回归、逻辑回归、神经网络、机器学习的应用和系统设计、支持向量机、聚类、将维、异常检测、推荐系统及大规模机器学习等内容。
**************************************
机器学习定义
& & & & 机器学习是人工智能的一个分支,目标是赋予机器一种新的能力。(专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。)机器学习的应用很广泛,例如大规模的数据挖掘(网页点击数据,医疗记录等),无人驾驶飞机、汽车,手写手别,大多数的自然语言处理任务,计算机视觉,推荐系统等。
& & & & 机器学习有很多定义,广为人知的有如下两条:
ArthurSamuel (1959): Machine Learning: Field of study that gives computers theability to learn without being explicitly programmed.
TomMitchell (1998) : Well-posed Learning Problem: A computer program is said tolearn from experience E with respect to some task T and some performance measureP, if its performance on T, as measured by P, improves with experience E.
例子:对于一个垃圾邮件识别的问题,将邮件分类为垃圾邮件或非垃圾邮件是任务T,查看哪些邮件被标记为垃圾邮件哪些被标记为非垃圾邮件是经验E,正确识别的垃圾邮件或非垃圾邮件的数量或比率是评测指标P。
& & & & 对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。
& & & & 监督学习是训练神经网络和决策树的最常见技术。这两种技术(神经网络和决策树)高度依赖于事先确定的分类系统给出的信息。
& & & & 房屋价格预测-回归(Regression):&预测连续的输出值(价格)
& & & & 乳腺癌(良性,恶性)预测问题-分类(Classification):&预测离散的输出值(0,&1)
即使有无限多种特征也可以处理(支持向量机)。
分类、回归都是监督学习的内容。
无监督学习
& & & & 对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的岐义性高。
& & & & 常见的无监督学习算法有聚类。
& & & & 上面介绍了监督学习。回想当时的数据集,如图表所示,这个数据集中每条数据都已经标明是阴性或阳性,即是良性或恶性肿瘤。所以,对于监督学习里的每条数据,我们已经清楚地知道,训练集对应的正确答案,是良性或恶性。
& & & & 在无监督学习中,我们已知的数据。看上去有点不一样,不同于监督学习的数据的样子,即无监督学习中没有任何的标签或者是有相同的标签。针对数据集,无监督学习就能判断出数据有两个不同的聚集簇。无监督学习算法可能会把这些数据分成两个不同的簇。所以叫做聚类算法,它能被用在很多地方。
& & & & 无监督学习有着大量的应用。它用于组织大型计算机集群。第二种应用就是社交网络的分析。还有市场分割。许多公司有大型的数据库,存储消费者信息。所以,你能检索这些顾客数据集,自动地发现市场分类,并自动地把顾客划分到不同的细分市场中,你才能自动并更有效地销售或不同的细分市场一起进行销售。最后,无监督学习也可用于天文数据分析,这些聚类算法给出了令人惊讶、有趣、有用的理论,解释了星系是如何诞生的。这些都是聚类的例子,聚类只是无监督学习中的一种。
注:本文是学习Andrew Ng教授的《机器视觉》课程的学习笔记。
转载请注明出处:
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:226146次
积分:3969
积分:3969
排名:第7495名
原创:149篇
转载:13篇
评论:52条
(1)(1)(1)(1)(12)(18)(13)(46)(29)(11)(11)(4)(3)(2)(4)(3)(2)(13)1509人阅读
在机器学习(Machine learning)领域,主要有三类不同的学习方法:
监督学习(Supervised learning)、
非监督学习(Unsupervised learning)、
半监督学习(Semi-supervised learning),
监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。
非监督学习:直接对输入数据集进行建模,例如聚类。
半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数。
一、监督学习
1、监督式学习(Supervised learning),是一个机器学习中的方法,可以由训练资料中学到或建立一个模式( learning model),并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。
2、一个监督式学习者的任务在观察完一些训练范例(输入和预期输出)后,去预测这个函数对任何可能出现的输入的值的输出。要达到此目的,学习者必须以&合理&(见归纳偏向)的方式从现有的资料中一般化到非观察到的情况。在人类和动物感知中,则通常被称为概念学习(concept learning)。
3、监督式学习有两种形态的模型。最一般的,监督式学习产生一个全域模型,会将输入物件对应到预期输出。而另一种,则是将这种对应实作在一个区域模型。(如案例推论及最近邻居法)。为了解决一个给定的监督式学习的问题(手写辨识),必须考虑以下步骤:
1)决定训练资料的范例的形态。在做其它事前,工程师应决定要使用哪种资料为范例。譬如,可能是一个手写字符,或一整个手写的词汇,或一行手写文字。
2)搜集训练资料。这资料须要具有真实世界的特征。所以,可以由人类专家或(机器或传感器的)测量中得到输入物件和其相对应输出。
3)决定学习函数的输入特征的表示法。学习函数的准确度与输入的物件如何表示是有很大的关联度。传统上,输入的物件会被转成一个特征向量,包含了许多关于描述物件的特征。因为维数灾难的关系,特征的个数不宜太多,但也要足够大,才能准确的预测输出。
4)决定要学习的函数和其对应的学习算法所使用的数据结构。譬如,工程师可能选择人工神经网络和决策树。
5)完成设计。工程师接着在搜集到的资料上跑学习算法。可以借由将资料跑在资料的子集(称为验证集)或交叉验证(cross-validation)上来调整学习算法的参数。参数调整后,算法可以运行在不同于训练集的测试集上
另外对于监督式学习所使用的词汇则是分类。现著有著各式的分类器,各自都有强项或弱项。分类器的表现很大程度上地跟要被分类的资料特性有关。并没有某一单一分类器可以在所有给定的问题上都表现最好,这被称为‘天下没有白吃的午餐理论’。各式的经验法则被用来比较分类器的表现及寻找会决定分类器表现的资料特性。决定适合某一问题的分类器仍旧是一项艺术,而非科学。
目前最广泛被使用的分类器有人工神经网络、支持向量机、最近邻居法、高斯混合模型、朴素贝叶斯方法、决策树和径向基函数分类。
二、无监督式学习
1、无监督式学习(Unsupervised Learning )是人工智能网络的一种算法(algorithm),其目的是去对原始资料进行分类,以便了解资料内部结构。有别于监督式学习网络,无监督式学习网络在学习时并不知道其分类结果是否正确,亦即没有受到监督式增强(告诉它何种学习是正确的)。其特点是仅对此种网络提供输入范例,而它会自动从这些范例中找出其潜在类别规则。当学习完毕并经测试后,也可以将之应用到新的案例上。
2、无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
三、半监督学习
1、半监督学习的基本思想是利用数据分布上的模型假设, 建立学习器对未标签样本进行标签。
形式化描述为:
& & & & & & 给定一个来自某未知分布的样本集S=L∪U, 其中L 是已标签样本集L={(x1,y1),(x2,y2), … ,(x |L|,y|L|)}, U是一个未标签样本集U={x’1,x’2,…,x’|U|},希望得到函数f:X → Y可以准确地对样本x预测其标签y,这个函数可能是参数的,如最大似然法;可能是非参数的,如最邻近法、神经网络法、支持向量机法等;也可能是非数值的,如决策树分类。其中, x与x’ &均为d 维向量, yi∈Y 为样本x i 的标签, |L| 和|U| 分别为L 和U
的大小, 即所包含的样本数。半监督学习就是在样本集S 上寻找最优的学习器。如何综合利用已标签样例和未标签样例,是半监督学习需要解决的问题。
2、半监督学习问题从样本的角度而言是利用少量标注样本和大量未标注样本进行机器学习,从概率学习角度可理解为研究如何利用训练样本的输入边缘概率 P( x )和条件输出概率P ( y | x )的联系设计具有良好性能的分类器。这种联系的存在是建立在某些假设的基础上的,即聚类假设(cluster &assumption)和流形假设(maniford assumption)。
转自:http://blog.csdn.net/u/article/details/?utm_source=tuicool
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:68599次
积分:1230
积分:1230
排名:千里之外
原创:40篇
转载:14篇
评论:16条
(3)(1)(7)(8)(1)(3)(3)(1)(1)(2)(1)(5)(2)(2)(1)(2)(8)(3)(2)(1)几种监督式学习算法的比较
发表于 07:47|
来源DataSchool|
作者Kevin Markham
摘要:Kevin Markham为General Assembly讲授数据科学课程,在SlideRule指导学生学习数据科学,还是约翰·霍普金斯大学数据科学Coursera专项课程的社区教学助理,日前他撰文谈及了几种监督式学习算法的比较,值得一看。
【编者按】本文的作者是计算机工程师Kevin&Markham;热衷烹饪,痴迷戏剧,偶尔参加铁人三项运动;为
讲授为期11周的数据科学课程,在
指导学生学习数据科学,还是
的社区教学助理(CTA);业余时间制作
的比赛。日前他撰文谈及了几种监督式学习算法的比较,值得一看。
以下为正文:
我所讲授的
涵盖了该领域大部分内容,但尤其关注机器学习(machine&learning)。除了讲授模型的评估过程和度量方法以外,很明显,我们还讲算法本身,主要是监督式学习(supervised&learning)算法。
在为期11周的课程接近尾声的时候,我们花了几个小时检查所用的课程资料。我们希望学生能够逐渐理解他们所学的东西。要掌握的技能之一就是在解决机器学习的问题时,有能力在不同的监督式学习算法中做出明智的选择。虽然使用“蛮力”(把每种情况都试一遍,看看哪种最好)的方法有其价值所在,但比这价值大得多的是能够在不同算法之间做出权衡利弊的选择。
我决定为学生们组织一场比赛。我给他们一张空白的表格,列出所讲的监督式学习算法,让学生从几个不同维度对这些算法进行比较。我在网上找到了这样的表格,自己先弄一张再说!下面就是,一起看看:上图为表格部分截图,中文版下载请点击
贡献出这张表格,有两个原因:
其一,它可以用来讲课或者学习(
下来拿去用吧)。
其二,这张表格需要完善,人多力量大!
这张表格是集鄙人经验与研究的产物,在任何这些算法的领域,我都称不上是专家。如果你有能够改进表格的建议,给我留言哟!
是否在我的这些评估中存在误导或错误?(当然啦,有些比较维度本身就带有主观性。)
是否存在应该添加到表格中的其他“重要的”对比维度?
是否还有其他你希望加入到这张表格的算法?(目前,表格中只有我所讲授的算法。)
我意识到每种算法的特征及相应的评价都可以基于数据的具体情况(以及数据的调优程度)发生变化。因此有人会认为试图做“客观”的比较是欠考虑的。然而,我认为作为监督式学习算法入门的一般性参考,这张表仍然有其价值所在。
Duang~Duang~Duang~!
:Edwin&Chen所做的概述,短小易懂,可读性强。
:选择“正确”的估计器(estimator)。
:深思熟虑的建议,避免在机器学习中掉进常见的坑,有些建议涉及算法的选择。
:较上一项更高级的建议。
:发表于2006年的研究论文。
补充说明:要做“锐推”,
,还可以来
原文链接:
(译者/白云鹏 责编/钱曙光)
推荐阅读相关主题:
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信