现在的 IT 行业对数据挖掘-数据挖掘和机器学习的关系职位需求究竟有多大?现在的情况是怎样的?

当前位置: →
互联网公司机器学习数据挖掘类的职位面试主要考察哪些?
我觉得从事数据挖掘工作,尤其是在互联网行业,主要需要三个方面的能力,即机器学习和数据挖掘的理论知识、编程开发与数据结构算法的基础和业务理解与沟通表达的能力。
  上面的图里列出了这个行业不同类型的从业者机器特点。
A. 主要是负责做最顶尖机器学习相关学术研究。比如发明一些新的算法,想早期的SVM,LDA最近的一些deeplearning模型。但是处在塔尖的的他们对于这些算法在业务场景的应用或者算法的实现兴趣并不大,主要精力都花在了理论研究上,比如证明个bounds什么的。写出来的东西大部分发表在NIPS或者ICML上,一般人也看不懂。他们主要存在于一些研究机构中,如国外高校或者企业研究院。一般企业如果需要这样的人,也是挖过来当震厂之宝吉祥物,不属于我们讨论的范围。
B. 他们既对算法有比较深入的了解,又有高超的编程技术。他们的数学可能达不到炉火纯青的地步,他们的兴趣也不在于各种繁琐的理论推导。他们对已有算法进行改进,并且给出最好的实现,造福广大人民群众,比如libsvm,svdfeature,paramater server这样的工具。当然,这样的人才也是可遇不可求,而且他们也需要一个比较大的平台来施展自己的能力。他们的工作应该能够成为一个企业数据挖掘的大杀器。
C.他们对算法有一定的了解,但是不够深入。他们开发的经验有限,对于数据挖掘的应用了解也不够深入。比如很多理论方向的研究生博士生可能就处于这个状态,即使能够发表一些看起来不错的文章,但离真正做出好的实际的数据挖掘工作还有很长的一段距离,需要一步一个脚印的踏实前进。
D.他们是算法界的大神,码农中的翘楚,横扫各路ACM ICPC比赛的英雄。因为各种机缘巧合,他们没有选择数据挖掘作为自己以后的方向。虽然他们对于机器学习理论和数据挖掘的应用场景不是很了解,但凭借他们的天赋,假以时日,也一定能在这个行业有所作为。不过,其他领域也需要他们,也有他们大展拳脚的空间。
E.他们属于一般的码农,能写的一手好代码。但是对机器学习知之甚少,而且如果思维不够灵活,可能也会在业务的理解上有一些障碍。另外,沟通交流的能力通常也是码农们所欠缺的。对于应届生,如果确实有这个天赋,不妨一试;对于工作多年的码农想转行,也需要付出比较大的努力。
F.他们的工作贴近业务,对数据也有一定敏感性,可能是excel和sql的高手。但是这和数据挖掘的工作还有一定差别。最适合他们的岗位可能是BI或者数据产品经理。在这些岗位上,他们同样可以发光发热,做出卓越的贡献。
G.他们有一定的算法基础,同时对数据挖掘的业务落地也有丰富的经验。他们的瓶颈主要在于编程开发能力,这在大数据的场景下尤为明显。毕竟最好的方式是自己想idea,自己实现,至少实现一个原型。那么R或者python是一个这种的选择。没有coding,再好的算法也出不来。
H.对机器学习算法有一定的了解,熟悉各种业务,也有一定的开发能力。在数据挖掘的具体工作中,可以从业务出发,设计算法,也能对算法进行基本的实现。实际上这样的工程师还是很多的,特别是有一定工作经验的。他们的工作经验会对数据挖掘的工作起到很大的帮助。他们在算法以及编程的上的能力可能不是很高,但是足以丰富他们的思维方式,也方便与人沟通。
I.对机器学习算法有一定了解,也有较强的开发能力。适合做偏向开发的数据挖掘岗位。他们和I类的工程师密切配合,应该能有比较好的产出。他们很可能是学校的应届毕业生,学习了一些理论知识,也锻炼了开发的能力,但还缺乏实际的工作经验。互联网的数据挖掘岗位正是他们大展拳脚的好地方。
J.看起来是最好的,各项技能都很全面,也很适合做leader。但是这样的人毕竟可遇不可求。另外,每一项都好其实也就是每一项都不好,人的精力总是有限的。我觉得在一到两个方面做的比较突出,同时另外的方面也不要太弱以至于成为短板,这样就挺好的了。
根据上面说的,招聘主要根据H和I两类模版挑选人才。觉得考察的话,除了基本的开发算法,还有以下几个:
1.机器学习算法的理解,比如常见的算法的基本思想原理、应用场景、特点和求解方法。可以从两个分支考察,一个是使用经验,比如实际的一些参数设置啊,使用技巧什么的,面向H类。还有就是一些算法的实现方法,面向I类。
2.实际的项目经验,特别是数据挖掘工作。一方面考察他之前的工作情况,另外也看他的归纳总结能力与解决问题的能力。针对项目的一些细节提问,也可以看出他的做事方式和对一些知识的掌握情况。
3.对于业务的理解能力和敏感性,可以结合实际工作中的一些问题来考察。即使没有实际工作经验,也是可以看出他们在这个方面的潜力。同时也考察出理论和实际结合的能力。
4.沟通表达能力。相对于程序员,数据挖掘岗位对这个能力的要求高出不少。在整个面试的过程中,其实都有对这个能力的考察。
关注官方微信
扫一扫分享本文到朋友圈
联系我们:
&(发送邮件时,请把#换成@)
投稿信箱:
&(发送邮件时,请把#换成@)
企业网版权所有苹果园为iOS用户提供和下载,最新的、、、等,分享最权威的资讯、、及解决办法,拥有最火爆的,苹果园一家专注解决iOS所求的网站。博客访问: 101391
博文数量: 32
博客积分: 1410
博客等级: 上尉
技术积分: 340
注册时间:
IT168企业级官微
微信号:IT168qiye
系统架构师大会
微信号:SACC2013
1.数据挖掘的含义
近十几年来,信息数据增长之巨大已到了令人咂舌地步,大型数据库、数据仓库被用于商业管理、政府办公、科学研究和工程开发等等。于是,我们又面临了新的问题:如何从中及时发现有用的知识,提高信息利用率?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据只能成为包袱,甚至垃圾。因此,数据挖掘技术应运而生。
数据挖掘出现于20世纪80年代末,最早是在数据库领域发展起来的,称为数据库中的知识发现(KDD,Knowledge Discovery in Database)。数据挖掘是KDD过程中的一个环节,它的历史虽然较短,但从20世纪90年代以来,发展速度很快,目前还没有一个完整的定义,人们提出了多种数据挖掘的定义:
SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。
Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。
Hand et al(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。
根据以上定义,我们可以把数据挖掘理解为:数据挖掘就是从海量的数据(包括结构化和非结构化)中挖掘出隐含在其中的、事先不为人知的、潜在的、有用信息和知识的技术。这些信息是可能有潜在价值的,是用户感兴趣的、可理解、可运用的,支持决策,可以为企业带来利益,或者为科学研究寻找突破口。
数据挖掘所能发现的知识有如下几种:
广义型知识,反映同类事物共同性质的知识;
特征型知识,反映事物各方面的特征知识;
差异型知识,反映不同事物之间属性差别的知识;
关联型知识,反映事物之间依赖或关联的知识;
预测型知识,根据历史的和当前的数据推测未来数据;
偏离型知识,揭示事物偏离常规的异常现象。
所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。
2.数据挖掘的功能
数据挖掘综合了各个学科技术,有很多的功能,当前主要功能如下:
(1)分类:按照分析对象的属性、特征,建立不同的组类来描述事物。例如:银行部门根据以前的数据将客户分成了不同的类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。
(2)聚类:识别出分析对内在的规则,按照这些规则把对象分成若干类。例如:将申请人分为高度风险申请者,中度风险申请者,低度风险申请者。
(3)关联规则和序列模式的发现:关联是某种事物发生时其他事物会发生的这样一种联系。例如:每天购买尿布的人也有可能购买啤酒,比重有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向的联系。例如:今天银行调整利率,明天股市的变化。
(4)预测:把握分析对象发展的规律,对未来的趋势做出预见。例如:对未来经济发展的判断。
(5)偏差的检测:对分析对象的少数的、极端的特例的描述,揭示内在的原因。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减小以后经营的风险。
需要注意的是:数据挖掘的各项功能不是独立存在的,在数据挖掘中互相联系,发挥作用。
3.数据挖掘应用现状
数据挖掘的应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用数据挖掘工具进行有目的的发掘分析。常见的应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务:
(1)商场从顾客购买商品中发现一定的关联规则,提供打折、购物券等促销手段,提高销售额;
(2)保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高利润;
(3)在制造业中,半导体的生产和测试中都产生大量的数据,就必须对这些数据进行分析,找出存在的问题,提高质量;
(4)电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计;
一些公司运用数据挖掘的成功案例,显示了数据挖掘的强大生命力:
美国<SPAN lang=EN-是世界上最大的汽车销售站点,每天都会有大量的用户对网站上的信息点击,寻求信息,其运用了SAS软件进行数据挖掘,每天对数据进行分析,找出用户的访问模式,对产品的喜欢程度进行判断,并设特定服务,取得了成功。
Reuteres是世界著名的金融信息服务公司,其利用的数据大都是外部的数据,这样数据的质量就是公司生存的关键所在,必须从数据中检测出错误的成分。Reuteres用SPSS的数据挖掘工具SPSS/Clementine,建立数据挖掘模型,极大地提高了错误的检测,保证了信息的正确和权威性。
Bass Export是世界最大的啤酒进出口商之一,在海外80多个市场从事交易,每个星期传送23000份定单,这就需要了解每个客户的习惯,如品牌的喜好等,Bass Export用IBM的Intelligent Miner很好的解决了上述问题。
4.数据挖掘技术的三大支柱
  随着DMKD研究逐步走向深入,人们越来越清楚地认识到,DMKD的研究主要有3个技术支柱,即数据库、人工智能和数理统计。
4.1&数据库技术
目前数据库专家除了关注万维网数据库、分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库最实质的应用仅仅是查询吗?查询是数据库的奴隶,发现才是数据库的主人。
由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域——客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,很多数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。
4.2 人工智能技术
专家系统曾经是人工智能研究工作者的骄傲。在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此,知识获取成为专家系统研究中公认的瓶颈问题。
  其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太困难,知识表示又成为一大难题。
此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识相当缺乏,而人类专家知识是以拥有大量常识为基础的。
人工智能技术的三大难题:“知识获取、知识表示、缺乏常识”大大限制了专家系统的应用。人工智能学者开始着手基于案例的推理,尤其是从事机器学习的科学家们,不再满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不完全的、有噪声的、模糊的、随机的大数据样本,从而与数据仓库技术相结合,转向数据挖掘技术。
4.3 概率与数理统计
数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了, 迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力。一向以数理统计工具和可视化计算闻名的美国SAS公司,领先宣布进入DMKD行列。
5.数据挖掘中存在的问题
同时数据挖掘技术也面临着许多的问题,这也为数据挖掘未来的发展提供了更大的空间。
(1)数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显的非常复杂,如何进行探索,选择分析变量,也就成为首先要解决的问题。
(2)面对如此大的数据,现有的统计方法等都遇到了问题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得研究的难题。
(3)既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。
(4)各种不同的模型如何应用,其效果如何评价。不同的人对同样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。
(5)当前互联网的发展迅速,如何进行互联网的数据挖掘,还有文本等非标准数据的挖掘,都引起了极大的兴趣。
(6)数据挖掘涉及到数据也就碰到了数据的私有性和安全性。
(7)数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。
总之,数据挖掘只是一个工具,不是万能的,它可以发现一些潜在的用户,但是不会告诉你为什么,也不能保证这些潜在的用户成为现实。数据挖掘的成功要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对数据挖掘的结果找出合理的解释。
6.数据挖掘研究热点
  就目前来看,将来的几个热点包括网站的数据挖掘、生物信息或基因的数据挖掘及其文本的数据挖掘。
6.1 网站的数据挖掘(Web site data mining)
  随着Web技术的发展,各类电子商务网站风起云涌。如何让您的电子商务网站有效益,就必须吸引客户,增加能带来效益的客户忠诚度。电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Log_files)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。
  在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流(Click-stream),此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。
  就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。目前,有很多厂商正在致力于开发专门用于网站挖掘的软件。
6.2 生物信息或基因的数据挖掘
  生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。
  对于生物信息或基因的数据挖掘和通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。
6.3 文本的数据挖掘(Textual Mining)
  人们很关心的另外一个话题是文本数据挖掘。举个例子,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。从这个例子可以看出,无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正的分析功能。
随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越来越多、越来越复杂,数据挖掘将发挥出越来越大的作用。
7.数据挖掘技术未来的研究方向
当前,DMKD研究正方兴未艾,预计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:
(1)形式化描述的语言,即研究专门用于知识发现的数据挖掘语言DMQL,类似SQL语言一样走向形式化和标准化;
(2)可视化的数据挖掘过程,寻求数据挖掘过程中的可视化方法,使知识发现的过程易于被用户理解和操纵,可使数据挖掘过程成为用户业务流程的一部分,也便于在知识发现的过程中进行人机交互;包括数据用户化呈现与交互操纵两部分。
(3)Web网络中数据挖掘的应用,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘,从而建立强大的数据挖掘引擎与数据挖掘服务市场。
(4)融合各种异构数据的挖掘技术,加强对各种非结构化数据的开采(Data Mining for Audio&Video),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;
(5)处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。
(6)交互式发现;
(7)知识的维护更新。
但是,不管怎样,需求牵引与市场推动是永恒的,DMKD将首先满足信息时代用户的急需,大量的基于DMKD的决策支持软件产品将会问世。
阅读(12423) | 评论(0) | 转发(0) |
下一篇:没有了
相关热门文章
给主人留下些什么吧!~~
请登录后评论。趣文:如何向外行解释机器学习和数据挖掘 - 文章 - 伯乐在线
& 趣文:如何向外行解释机器学习和数据挖掘
伯乐在线导读:有网友在 Quora 上提问:对于那些非计算机科学行业的人,你会如何向他们解释机器学习和数据挖掘? 斯坦福大学的印度学生、机器学习爱好者
在日的回复,非常经典,得赞数有 3700+。下面内容,由@jiqihuman 编译。
买点芒果去
假设有一天你准备去买点芒果。有个小贩摆放了一车。你可以一个一个挑,然后小贩根据你挑的芒果的斤两来算钱(在印度的典型情况)。显然,你想挑最甜最熟的芒果对吧(因为小贩是按芒果的重量来算钱,而不是按芒果的品质来算钱的)。可是你准备怎么挑呢?
你记得奶奶和你说过, 嫩黄的芒果比暗黄的甜。 所以你有了一个简单的判断标准:只挑嫩黄的芒果。你检查各个芒果的颜色, 挑了些嫩黄的,买单,走人,爽不?
可没那么简单。
生活是很复杂的
你回到家,开始慢慢品尝你的芒果。你发现有一些芒果没有想的那么甜。你焦虑了。显然,奶奶的智慧不够啊。挑芒果可不是看看颜色那么简答的。
经过深思熟虑(并且尝了各种不同类型的芒果), 你发现那些大个儿的,嫩黄的芒果绝对是甜的,而小个儿,嫩黄的芒果,只有一半的时候是甜的(比如你买了100个嫩黄的芒果,50个比较大,50个比较小,那么你会发现50个大个儿的芒果是甜的,而50个小个儿的芒果,平均只有25个是甜的)。
你对自己的发现非常开心,下次去买芒果的时候你就将这些规则牢牢的记在心里。但是下次再来到市集的时候,你发现你最喜欢的那家芒果摊搬出了镇子。于是你决定从其它卖芒果的小贩那里购买芒果,但是这位小贩的芒果和之前那位产地不同。现在,你突然发现你之前学到的挑芒果办法(大个儿的嫩黄的芒果最甜)又行不通了。你得从头再学过。你在那位小贩那里,品尝了各类芒果,你发现在这里,小个儿、暗黄的芒果其实才是最甜的。
没多久,你在其它城市的远房表妹来看你。你准备好好请她吃顿芒果。但是她说芒果甜不甜无所谓,她要的芒果一定要是最多汁的。于是,你又用你的方法品尝了各种芒果,发现比较软的芒果比较多汁。
之后,你搬去了其它国家。在那里,芒果吃起来和你家乡的味道完全不一样。你发现绿芒果其实比黄芒果好吃。
再接着,你娶了一位讨厌芒果的太太。她喜欢吃苹果。你得天天去买苹果。于是,你之前积累的那些挑芒果的经验一下子变的一文不值。你得用同样的方法,去学习苹果的各项物理属性和它的味道间的关系。你确实这样做了,因为你爱她。
有请计算机程序出场
现在想象一下,最近你正在写一个计算机程序帮你挑选芒果(或者苹果)。你会写下如下的规则:
if(颜色是嫩黄 and 尺寸是大的 and 购自最喜欢的小贩): 芒果是甜的
if(软的): 芒果是多汁的
if(颜色是嫩黄 and 尺寸是大的 and 购自最喜欢的小贩): 芒果是甜的if(软的): 芒果是多汁的
等等等等。
你会用这些规则来挑选芒果。你甚至会让你的小弟去按照这个规则列表去买芒果,而且确定他一定会买到你满意的芒果。
但是一旦在你的芒果实验中有了新的发现, 你就不得不手动修改这份规则列表。你得搞清楚影响芒果质量的所有因素的错综复杂的细节。
如果问题越来越复杂, 则你要针对所有的芒果类型,手动地制定挑选规就变得非常困难。你的研究将让你拿到芒果科学的博士学位(如果有这样的学位的话)。
可谁有那么多时间去做这事儿呢。
有请机器学习算法
机器学习算法是由普通的算法演化而来。通过自动地从提供的数据中学习,它会让你的程序变得更“聪明”。
你从市场上的芒果里随机的抽取一定的样品(训练数据), 制作一张表格, 上面记着每个芒果的物理属性, 比如颜色, 大小, 形状, 产地, 卖家, 等等。(这些称之为特征)。
还记录下这个芒果甜不甜, 是否多汁,是否成熟(输出变量)。你将这些数据提供给一个机器学习算法(分类算法/回归算法),然后它就会学习出一个关于芒果的物理属性和它的质量之间关系的模型。
下次你再去市集, 只要测测那些芒果的特性(测试数据),然后将它输入一个机器学习算法。算法将根据之前计算出的模型来预测芒果是甜的,熟的, 并且/还是多汁的。
该算法内部使用的规则其实就是类似你之前手写在纸上的那些规则(例如, 决策树),或者更多涉及到的东西,但是基本上你就不需要担心这个了。
瞧,你现在可以满怀自信的去买芒果了,根本不用考虑那些挑选芒果的细节。更重要的是,你可以让你的算法随着时间越变越好(增强学习),当它读进更多的训练数据, 它就会更加准确,并且在做了错误的预测之后自我修正。但是最棒的地方在于,你可以用同样的算法去训练不同的模型, 比如预测苹果质量的模型, 桔子的,香蕉的,葡萄的,樱桃的,西瓜的,让所有你心爱的人开心:)
这,就是专属于你的机器学习,是不是很酷啊。
机器学习:让你的算法更聪明, 所以你就可以偷懒喽 :)
关于作者:
可能感兴趣的话题
关于伯乐在线博客
在这个信息爆炸的时代,人们已然被大量、快速并且简短的信息所包围。然而,我们相信:过多“快餐”式的阅读只会令人“虚胖”,缺乏实质的内涵。伯乐在线内容团队正试图以我们微薄的力量,把优秀的原创文章和译文分享给读者,为“快餐”添加一些“营养”元素。
新浪微博:
推荐微信号
(加好友请注明来意)
&#8211; 好的话题、有启发的回复、值得信赖的圈子
&#8211; 分享和发现有价值的内容与观点
&#8211; 为IT单身男女服务的征婚传播平台
&#8211; 优秀的工具资源导航
&#8211; 翻译传播优秀的外文文章
&#8211; 国内外的精选文章
&#8211; UI,网页,交互和用户体验
&#8211; 专注iOS技术分享
&#8211; 专注Android技术分享
&#8211; JavaScript, HTML5, CSS
&#8211; 专注Java技术分享
&#8211; 专注Python技术分享
& 2017 伯乐在线}

我要回帖

更多关于 数据挖掘实用机器学习技术 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信