数据挖掘和机器学习之间的区别是什么

数据挖掘总结之数据挖掘与机器学习的区别 - CSDN博客
数据挖掘总结之数据挖掘与机器学习的区别
数据挖掘与机器学习的区别
与机器学习经常一起出现的就是数据挖掘,两种经常会有重叠的地方,
数据挖掘某种意义上更多的是关注从大量的数据中获得新的见解;
机器学习聚焦于进行已知的任务,而数据挖掘则是搜寻隐藏的信息。
例如电商利用机器学习来决定向谁推荐什么产品,数据挖掘用来了解什么样的人喜欢什么产品。机器学习和数据挖掘不严格区分。
数据挖掘和机器学习的区别和联系,数据挖掘受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。对数据挖掘而言,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。统计学界提供的很多技术通常都要在机器学习界进一步研究,变成有效的机器学习算法之后才能再进入数据挖掘领域。统计学主要是通过机器学习来对数据挖掘发挥影响,而机器学习和数据库则是数据挖掘的两大支撑技术。从数据分析的角度来看,绝大多数数据挖掘技术都来自机器学习领域,但机器学习研究往往并不把海量数据作为处理对象,因此,数据挖掘要对算法进行改造,使得算法性能和空间占用达到实用的地步。同时,数据挖掘还有自身独特的内容,即关联分析。
1)、机器学习应用场景:
预测选举;垃圾邮件过滤;智能交通,自动的信号灯控制;疾病诊断;犯罪预测;估计客户流失率;自动导航;定向广告…
机器学习过程:输入/获取数据、抽象、泛化
2)、大数据的挖掘常用的方法:
分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。
(1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别中。可以涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。
(2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。
(3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。
(4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二阶段为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。
(5)神经网络方法。神经网络作为一种先进的人工智能技术,因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题,它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类:第一类是以用于分类预测和模式识别的前馈式神经网络模型,其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型,以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法,以ART 模型为代表。虽然神经网络有多种模型及算法,但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则,而且人们很难理解网络的学习及决策过程。
(6)Web数据挖掘。Web数据挖掘是一项综合性技术,指Web 从文档结构和使用的集合C 中发现隐含的模式P,如果将C看做是输入,P 看做是输出,那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。
当前越来越多的Web数据都是以数据流的形式出现的,因此对Web数据流挖掘就具有很重要的意义。目前常用的Web数据挖掘算法有:PageRank算法,HITS算法以及LOGSOM 算法。
本文已收录于以下专栏:
相关文章推荐
模式识别,计算机视觉,智能控制,信号处理,语音识别,知识处理,机器学习,数据挖掘之间的联系。...
这学期分别学习了《数据挖掘》《机器学习》和《模式识别》三门课程,为了搞明白这三者的关系,就google了下,一下为一些从网上获得的资料。
----------------------------...
(一)模式识别的诞生与人工智能
自动控制起始是从工业革命之后,人们就希望设计出减少人工干预,能自己进行调节(regulate)的机器,工程领域开始想出了根轨迹等等土招儿。等到40 年代,伴随二战的需...
数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述《机器学习与数据挖掘》可以帮助大家理解。...
数据挖掘与机器学习关系与区别
ps:本篇文章主要阐述最近在数据挖掘、机器学习等方面的学习心得,或许不太全面,仅供自己归纳总结。
主要参照 周志华老师的:机器学习与数据挖掘 一文。有兴趣的可以自行百度,...
数据挖掘和机器学习的区别和联系,周志华有一篇很好的论述《机器学习与数据挖掘》可以帮助大家理解。数据挖掘受到很多学科领域的影响,其中数据库、机器学习、统计学无疑影响最大。简言之,对数据挖掘而言,数据库提...
0、为什么写这篇博文  最近有很多刚入门AI领域的小伙伴问我:数据挖掘与机器学习之间的区别于联系。为了不每次都给他们长篇大论的解释,故此在网上整理了一些资料,整理成此篇文章,下次谁问我直接就给他发个链...
本文翻译自/what-is-the-difference-between-artificial-intelligence-machine-learning-...
自认为从事机器学习已经有些时日了,常常听到统计学、人工智能、机器学习、数据挖掘、机器视觉吧啦吧啦....自己也曾迷茫,自己究竟算哪个方向的呢?因此起意整理一套系列文章将这些概念描述清楚,旨在理清这些错...
先声明一下:一个offer也没拿到。
今年三月份开始找实习,因为本身是机器学习方向,再加上现在大数据吵的这么火,所以就想找数据挖掘方向的工作,投简历的时候什么也投,回过头来看看自己投的岗...
他的最新文章
讲师:董岩
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)在各种各样的数据科学论坛上这样一个问题经常被问到——机器学习和统计模型的差别是什么?
这确实是一个难以回答的问题。考虑到机器学习和统计模型解决问题的相似性,两者的区别似乎仅仅在于数据量和模型建立者的不同。这里有一张覆盖机器学习和统计模型的数据科学维恩图。
在各种各样的数据科学论坛上这样一个问题经常被问到&&机器学习和统计模型的差别是什么?
这确实是一个难以回答的问题。考虑到和统计模型解决问题的相似性,两者的区别似乎仅仅在于数据量和模型建立者的不同。这里有一张覆盖机器学习和统计模型的数据科学维恩图。
在这篇文章中,我将尽最大的努力来展示机器学习和统计模型的区别,同时也欢迎业界有经验的朋友对本文进行补充。
在我开始之前,让我们先明确使用这些工具背后的目标。无论采用哪种工具去分析问题,最终的目标都是从数据获得知识。两种方法都旨在通过分析数据的产生机制挖掘背后隐藏的信息。
两种方法的分析目标是相同的。现在让我们详细的探究一下其定义及差异。
:一种不依赖于规则设计的数据学习算法。
统计模型:以数学方程形式表现变量之间关系的程式化表达
对于喜欢从实际应用中了解概念的人,上述表达也许并不明确。让我们看一个商务的案例。
让我们用麦肯锡发布的一个有趣案例来区分两个算法。
案例:分析理解电信公司一段时间内客户的流失水平。
可获得数据:两个驱动-A&B
麦肯锡接下来的展示足够让人兴奋。盯住下图来理解一下统计模型和机器学习算法的差别。
从上图中你观察到了什么?统计模型在分类问题中得到一个简单的分类线。一条非线性的边界线区分了高风险人群和低风险人群。但当我们看到通过机器学习产生的颜色时,我们发现统计模型似乎没有办法和机器学习算法进行比较。机器学习的方法获得了任何边界都无法详细表征的信息。这就是机器学习可以为你做的。
机器学习还被应用在YouTube和Google的引擎推荐上,机器学习通过瞬间分析大量的观测样本给出近乎完美的推荐建议。即使只采用一个16 G 内存的笔记本,我每天处理数十万行的数千个参数的模型也不会超过30分钟。然而一个统计模型需要在一台超级计算机跑一百万年来来观察数千个参数。
机器学习和统计模型的差异:
在给出了两种模型在输出上的差异后,让我们更深入的了解两种范式的差异,虽然它们所做的工作类似。
所属的学派
基于的假设
处理数据的类型
操作和对象的术语
使用的技术
预测效果和人力投入
以上提到的方面都能从每种程度上区分机器学习和统计模型,但并不能给出机器学习和统计模型的明确界限。
分属不同的学派
机器学习:计算机科学和人工智能的一个分支,通过数据学习构建分析系统,不依赖明确的构建规则。统计模型:数学的分支用以发现变量之间相关关系从而预测输出。
诞生年代不同
统计模型的历史已经有几个世纪之久。但是机器学习却是最近才发展起来的。二十世纪90年代,稳定的数字化和廉价的计算使得停止建立完整的模型而使用计算机进行模型建立。这催生了机器学习的发展。随着数据规模和复杂程度的不断提升,机器学习不断展现出巨大的发展潜力。
假设程度差异
统计模型基于一系列的假设。例如线性回归模型假设:
(1) 自变量和因变量线性相关 (2) 同方差 (3) 波动均值为0 (4) 观测样本相互独立 (5) 波动服从正态分布
Logistics回归同样拥有很多的假设。即使是非线性回归也要遵守一个连续的分割边界的假设。然而机器学习却从这些假设中脱身出来。机器学习最大的好处在于没有连续性分割边界的限制。同样我们也并不需要假设自变量或因变量的分布。
机器学习应用广泛。在线学习工具可飞速处理数据。这些机器学习工具可学习数以亿计的观测样本,预测和学习同步进行。一些算法如随机森林和梯度助推在处理时速度很快。机器学习处理数据的广度和深度很大。但统计模型一般应用在较小的数据量和较窄的数据属性上。
下面一些命名几乎指相同的东西:
虽然统计模型和机器学习的最终目标是相似的,但其公式化的结构却非常不同
在统计模型中,我们试图估计f 函数 通过
因变量(Y)=f(自变量)+ 扰动 函数
机器学习放弃采用函数f的形式,简化为:
输出(Y)&&& 输入(X)
它试图找到n维变量X的袋子,在袋子间Y的取值明显不同。
预测效果和人力投入
自然在事情发生前并不给出任何假设。一个预测模型中越少的假设,越高的预测效率。机器学习命名的内在含义为减少人力投入。机器学习通过反复迭代学习发现隐藏在数据中的科学。由于机器学习作用在真实的数据上并不依赖于假设,预测效果是非常好的。统计模型是数学的加强,依赖于参数估计。它要求模型的建立者,提前知道或了解变量之间的关系。
虽然和统计模型看起来为预测模型的不同分支,但它们近乎相同。通过数十年的发展两种模型的差异性越来越小。模型之间相互渗透相互学习使得未来两种模型的界限更加模糊。
来源:爱数据
后才能评论
您还未登录,请登录后再进行相关操作!
400-800-8888
在线咨询:
工作时间:周一至周五,9:30-18:30,节假日休息数据挖掘和机器学习的区别和联系_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
数据挖掘和机器学习的区别和联系
阅读已结束,下载文档到电脑
想免费下载更多文档?
定制HR最喜欢的简历
你可能喜欢求教 机器学习,模式识别,数据挖掘的关系和区别?_机器学习吧_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:9,936贴子:
求教 机器学习,模式识别,数据挖掘的关系和区别?收藏
如题 机器学习,模式识别,数据挖掘的关系和区别?国内机器学习在计算机学科模式识别在自动化学科数据挖掘好像附属在前两个后边求教 三者关系个人认为机器学习 数据挖掘偏软件
模式识别片硬件(传感器 信号什么的)
百度众包平台机器学习提供专业训练数据服务,用采集,标注方式为您提供高质量训练数据!同时提供基于百度机器学习算法库的实用行业大数据解决方案!机器模型训练,就找百度众包
这三个我相信只要是搞这方面的,都会学的。我感觉他们差别不大,相似更多。
数据挖掘是个交叉学科,同时涉及数据库,机器学习,模式识别,人工智能,统计学等。在数据挖掘里边采用一部分机器学习与模式识别的方法。不过我才刚开始学习数据挖掘,我只知道数据挖掘的分类算法就是机器学习的分类算法
感觉没必要去仔细区分这三个。外行从直觉上看,句法模式识别好像一般不认为是机器学习,而数据挖掘往往更强调实际应用背景。至于机器学习,好象与统计理论结合非常紧密。
登录百度帐号推荐应用数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)的区别是什么? 数据科学(data science)和商业分析(business analytics)之间有什么关系? - Donx - 博客园
随笔 - 7, 文章 - 0, 评论 - 3, 引用 - 0
本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答不出来,我在知乎和博客上查了查这个问题,发现还没有人写过比较详细和有说服力的对比和解释。那我根据以前读的书和论文,还有和与导师之间的交流,尝试着说一说这几者的区别吧,毕竟一个好的定义在未来的学习和交流中能够发挥很大的作用。同时补上数据科学和商业分析之间的关系。能力有限,如有疏漏,请包涵和指正。
本文主要分为两部分,第一部分阐述数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)之间的区别。这三者的区别主要是目的不同,其手段(算法,模型)有很大的重叠,所以容易混淆。第二部分主要阐述以上的技能与数据科学(data science)的关系,以及数据科学(data science)和商业分析(business analytics)之间的关系。其实,数据科学家本身就是商业分析师在大数据时代的延伸。
数据挖掘VS. 机器学习VS. 人工智能
数据挖掘 (data mining): 有目的地从现有大数据中提取数据的模式(pattern)和模型(model)
关键字:模式提取,大数据
数据挖掘是从现有的信息(existing information)中提取数据的模式(pattern)和模型(model),即精选出最重要的信息,以用于未来机器学习和AI的数据使用。其核心目的是找到数据变量之间的关系。其发展出来的主要原因是大数据的发展,用传统的数据分析的方式已经无能处理那么多大量的看似不相关的数据的处理,因此需要数据挖掘技术去提取各种数据和变量之间的相互关系,从而精炼数据。数据挖掘本质上像是机器学习和人工智能的基础,他的主要目的是从各种各样的数据来源中,提取出超集(superset)的信息,然后将这些信息合并让你发现你从来没有想到过的模式和内在关系。这就意味着,数据挖掘不是一种用来证明假说的方法,而是用来构建各种各样的假说的方法。数据挖掘不能告诉你这些问题的答案,他只能告诉你,A和B可能存在相关关系,但是它无法告诉你A和B存在什么相关关系。当然,数据挖掘会使用大量机器学习的算法,但是其特定的环境和目的和机器学习不太一样。
机器学习(machine learning): 自动地从过往的经验中学习新的知识。
关键字: 自动化,自我优化,预测,需要training data,推荐系统
机器学习其实是人工智能很重要的一部分,因为目前,在实践过程中,大多数的人工智能处理的任务,其实是用机器学习的方式完成的。机器学习可以用程序和算法自动地学习,只要被设计好了,这个程序可以进行自我优化。同时,机器学习需要一定数量的训练数据集(training data set),用于构建来自过往经验的&知识& 。且机器学习目前在实践中最重要的功能便是预测结果。比如机器学习已经学习结束了,现在有一个新的数据集x,需要预测其分类,机器学习算法会根据这个新数据与学习后的&知识&相匹配(实际上,知识指的是学习后的数学模型),然后将这个数据集x分类某类C去。再比较常见的机器学习,比如amazon的推荐系统。
人工智能(AI): 一个广泛的概念,本质是用数据和模型去为现有的问题(existing problems)提供解决方法(solutions).
关键字:和人一样处理问题,技术的合集
人工智能是一个与机器学习和数据挖掘相对不同的概念,人工智能的目的是为了去创造有智力的电脑(不知道怎么翻译好,可以假设其为机器人)。在实践中,我们希望这个电脑可以像有智力的人一样处理一个任务。因此,理论上人工智能几乎包括了所有和机器能做的内容,当然也包括了数据挖掘和机器学习的内容,同时还会有监视(monitor)和控制进程(process control)的内容。
数据科学(data science)和商业分析(business analytics)的关系?
其实以前,我们是没有数据科学家(data scientist),和数据科学(data science)这个概念的。我们称呼做相关内容的方式更多叫商业分析(business analytics)。
在2011年的时候,麦肯锡发表了提出了现在很多的公司已经开始往分析才能(analytical talent)中获得竞争优势。虽然这不是第一篇提出这个概念的公司,但是是第一次提出,数据分析能力也有助于商业公司去发现潜在的机会,而不仅仅只对技术公司有效。接着麦肯锡认为到了2018年,美国大约会有190,000的项目缺少&深度分析能力(Deep Analytical Talent)&,而这些深度分析能力,是由大数据(big data)驱动的。至此,麦肯锡将&商业分析&进一步形容为&深度分析能力&。
接着DJ Patil和Jeff Hammerbacher在其写的,将麦肯锡的&深度分析能力&称为了&数据科学家(data scientists)&。他们在文中提到:
商业分析师(business analyst)看起来太局限了,数据分析师(data anlyst)是他们的竞争者,但是我们还是觉得这个称呼太局限了。....我们认为最好的称呼应该是&数据科学家(data scientist)&,因为这些人需要同时使用数据(data)和科学(science)去创造一些新的东西。
紧接着,DJ Patil加了一些关键特点用于去寻找一个数据科学家(data scientist):
专业技术(Technical expertise): 最好的数据科学家需要有关于某些科学学科的深度专业知识(deep expertise)。
好奇心(Curiosity): 一个优秀的数据科学家需要有挖掘潜在关系,解决问题和证明假说的强烈好奇心和渴望。
讲故事的能力(Storytelling): 能用数据讲一个生动的故事的能力,它能使交流更加有效。
聪明(Cleverness): 能够创造性地解决问题的能力。
随后,数据科学家这个概念才开始被广为流传。那么数据科学家需要具备哪些专业能力?不同的公司有不同的看法和意见(反正大家好像都喜欢把所有一切的期许都放在一个新兴的行业中),这里列举一个比较流行的看法:1.Drew Conway&s&
2.Drew Tierney&s&
最后附赠一张&作弊纸&,列出几乎所有的商业问题(Business Problems),想要入门成为一个优秀的商业分析师,或者是数据科学家,强烈推荐保存!!!!!!!!!!!!以后有时间,我会尝试着逐一翻译和解说一下。
拓展阅读(英文):
:不知道为什么现在什么&独角兽&型的这种理念会那么流行,企业也爱叫独角兽,行业内也爱叫独角兽。。但为什么一提到独角兽,我先想到的是巫师系列游戏。(捂脸~)
:用于商业分析的十大工具,强烈推荐阅读!!!
:第二部分内容主要来源的原文。
参考文献:
各种乱七八糟的书和课件的笔记。
Drew Conway&s&
Drew Tierney&s&}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信