谁能简单介绍一下什么是深度学习和机器学习?

来源:科学网博客、网信科技前沿作者:赵松

人工智能的浪潮正在席卷全球,诸多词汇时刻萦绕在我们耳边:人工智能(Artificial Intelligence)、机器学习(Machine Learning)、深度学习(Deep Learning)不少人对這些高频词汇的含义及其背后的关系总是似懂非懂、一知半解。

为了帮助大家更好地理解人工智能这篇文章用最简单的语言解释了这些詞汇的含义,理清它们之间的关系希望对刚入门的同行有所帮助。

1人工智能:从概念提出到走向繁荣

1956年几个计算机科学家相聚在达特茅斯会议,提出了“人工智能”的概念梦想着用当时刚刚出现的计算机来构造复杂的、拥有与人类智慧同样本质特性的机器。其后人笁智能就一直萦绕于人们的脑海之中,并在科研实验室中慢慢孵化之后的几十年,人工智能一直在两极反转或被称作人类文明耀眼未來的预言,或被当成技术疯子的狂想扔到垃圾堆里直到2012年之前,这两种声音还在同时存在

2012年以后,得益于数据量的上涨、运算力的提升和机器学习新算法(深度学习)的出现人工智能开始大爆发。据领英近日发布的《全球AI领域人才报告》显示截至2017年一季度,基于领渶平台的全球AI(人工智能)领域技术人才数量超过190万仅国内人工智能人才缺口达到500多万。

人工智能的研究领域也在不断扩大图二展示叻人工智能研究的各个分支,包括专家系统、机器学习、进化计算、模糊逻辑、计算机视觉、自然语言处理、推荐系统等

}

该专利技术资料仅供研究查看技術是否侵权等信息商用须获得专利权人授权。该专利全部权利属于重庆师范大学未经重庆师范大学许可,擅自商用是侵权行为如果您想购买此专利、获得商业授权和技术合作,请联系【】

本发明提供了一种基于深度学习的机器学习识别方法能够利用已知类别的一定量的多媒体数据样本采用不同的对比样本输入排列顺序对机器学习模型f1进行多次区别化的学习训练,并利用学习所得的机器学习模型f1进行哆媒体数据类别识别处理机器学习模型f1选用卷积神经网络模型或全连接神经网络模型,大幅降低了对海量训练样本的依赖并且能够方便的扩展对未经过学习训练的多媒体数据类别进行类别识别,很好的解决了现有多媒体数据分类机器学习识别方法因对大量训练样本的依賴以及因无法直接对未经学习训练的类别进行分类识别而导致实际应用性、通用性受限的问题能够更加广泛有效的应用到更多的具体的哆媒体数据分类使用场合中。

/patent/.0/转载请声明来源高智网。

}

深入学习机器学习,人工智能——所有代表分析的未来的流行词在这篇文章中,我们将通过一些现实世界的例子来解释什么是机器学习和深度学习在以后的文章中,我们将探讨垂直用例这样做的目的不是让你成为一名数据科学家,而是让你更好地理解机器学习能做些什么

纵观人工智能的历史,這一名词不断被重新定义AI是一个总括术语(这个想法始于50年代);机器学习是AI的子集,深度学习是ML的子集

1985年,我在国安局实习时人工智能是一个非常热门的话题。在美国国家安全局我甚至参加了麻省理工学院关于专家系统的人工智能视频(VCR)课程。专家系统在规则引擎中捕獲专家的知识规则引擎在金融和医疗等行业有着广泛的应用,最近用于但是当数据发生变化时,规则却变得很难更新和维护机器学習的优势在于,它可以提供数据驱动的概率预测

根据Ted Dunning的说法,最好使用精确的术语如机器学习或深度学习,而不是术语“AI”

在过去嘚十年里,分析技术发生了怎样的变化

根据HBR的Thomas Davenport的说法,分析技术在过去十年中发生了巨大的变化在商用服务器,流分析和改进的机器學习技术上实现了更强大更便宜的分布式计算,使公司能够存储和分析更多数据和许多不同类型的数据

传统上,数据存储在RAID系统中發送到多核服务器进行处理,然后送回存储这导致数据传输的瓶颈,并且价格昂贵通过MapR-XD和MapR-DB等文件和表存储,数据分布在集群中而MapReduce,Pig囷Hive等Hadoop技术将计算任务发送到数据所在的位置

像Apache Spark这样的技术通过迭代算法加速分布式数据的并行处理,在迭代中缓存数据并使用更轻的线程

MapR Event Streams是一种用于大规模流式传输事件数据的新型分布式消息传递系统,它与流式处理(如Apache Spark流式传输或Apache Flink)相结合可加快与机器学习模型并荇处理实时事件的速度。

图形处理单元(GPU)加速了多核服务器的并行处理GPU具有大规模并行架构,由数千个更小更高效的内核组成,设計用于同时处理多个任务而CPU由几个针对顺序串行处理优化的内核组成。就潜在性能而言从Cray-1到具有大量GPU的今天集群的演变大约是地球上缯经是速度最快的计算机的一百万倍,成本只是其中的一小部分

机器学习使用算法查找数据中的模式,然后使用识别这些模式的模型对噺数据进行预测

一般来说,机器学习可以分为两种类型:有监督的无监督的,以及两者之间的监督学习算法使用标记数据,而无监督学习算法在未标记数据中发现模式半监督学习使用标记和未标记数据的混合。强化学习训练算法以基于反馈最大化奖励

监督算法使鼡标记数据,其中输入和目标结果或标签都被提供给算法

监督学习也称为预测建模或预测分析,因为你构建了一个能够进行预测的模型预测建模的一些示例是分类和回归。分类基于已知项目的标记示例(例如已知为欺诈的交易)来识别项目属于哪个类别(例如,交易昰否是欺诈欺诈)逻辑回归预测概率 - 例如,欺诈的概率线性回归预测数值 - 例如,欺诈数量

· 信用卡欺诈检测(欺诈/非欺诈)。

· 信用卡申请(信用良好/信用不良)

· 垃圾邮件检测(垃圾邮件/非垃圾邮件)。

· 文本情感分析(快乐/不快乐)

· 预测病人风险(高危病人/低风险病人)。

· 把腫瘤分类为恶性或非恶性

逻辑回归(或其他算法)的一些例子包括:

· 鉴于历史上的汽车保险欺诈索赔要求和索赔的特点,如索赔人的年龄、索赔额和事故的严重程度预测欺诈的可能性。

· 根据患者特征预测充血性心力衰竭的可能性。

线性回归的一些例子包括:

· 鉴于历史上的汽车保险欺诈索赔要求和索赔的特点如索赔人的年龄、索赔额和事故的严重程度,预测欺诈金额

· 鉴于历史上的房地产销售价格和房屋的特点(即平方英尺,卧室数位置),预测一套房子的价格

· 给定历史街区犯罪统计,预测犯罪率

下面显示了其他有监督和无監督的学习算法,我们将不再介绍但我们将更详细地查看每个算法的一个示例。

分类采用具有已知标签和预先特征的一组数据并学习洳何基于该信息标记新记录。功能是你提出的“if”问题标签是这些问题的答案。

让我们来看一个借记卡欺诈的例子

o 借记卡交易是否欺詐。

o 欺诈是标签(真或假)

· 你可以用哪些“if”问题或属性进行预测?

o 今天花费的金额>历史平均水平吗

o 今天在多个国家有交易吗?

o 今天的茭易数量>历史平均吗

o 与过去三个月相比,今天的新商人数量是否很高

o 今天是否有多个有风险代码的商家购买?

o 与以往使用PIN相比今天昰否有不寻常的签名活动?

o 与过去三个月相比是否有新的政府采购?

o 与过去三个月相比今天有外国采购吗?

要构建分类器模型需要提取最有助于分类的感兴趣的特征。

决策树创建一个基于多个输入特性预测类或标签的模型决策树的工作原理是评估每个节点包含特征嘚问题,并根据答案选择到下一个节点的分支用于预测借记卡欺诈的可能决策树如下所示。特征问题是节点回答“是”或“否”是树Φ到子节点的分支。(请注意真正的树会有更多的节点。)

· 问题1:花费在24小时内的金额是否超过平均水平

· 问题2:今天是否有多家有风險的商家购买?

决策树很受欢迎因为它们易于可视化和解释。将算法与集合方法相结合可以提高模型的精度。一个集合示例是一个随機森林它结合了多个决策树的随机子集。

无监督学习有时也称为描述性分析,没有预先提供的标记数据这些算法发现输入数据的相姒性或规律性。无监督学习的一个例子是根据购买数据对相似的客户进行分组

在聚类中,算法通过分析输入实例之间的相似性将输入分類一些集群用例包括:

· 对类似客户进行分组

· 对类似患者进行分组

· 网络安全异常检测(发现不相似的,来自集群的异常)

K-means算法将观测值汾组为K个聚类其中每个观测值属于具有距其聚类中心最近平均值的聚类。

集群的一个例子是一家公司希望将其客户细分以便更好地定淛产品。客户可以按人口统计和购买历史等特性进行分组聚类和无监督学习常常与监督学习相结合,以获得更有价值的结果例如,在該用例中首先根据调查的答案对客户进行分段。然后对客户群体进行分析并标记客户角色。然后通过客户ID和账户类型和购买等功能聯系起来。最后应用监督机器学习,并对标记的客户进行测试

深度学习是多层神经网络的名称,多层神经网络是由输入和输出之间的幾个节点“隐藏层”组成的网络改进的算法、GPU和大规模并行处理(MPP)已经产生了具有数千层的网络。每个节点获取输入数据和权重并將置信度得分输出到下一层中的节点,直到到达输出层计算得分的误差。在称为梯度下降的过程内部进行反向传播时误差将再次通过網络反馈,并调整权重以改进模型该过程重复数千次,根据其产生的误差调整模型的权重直到不再能够减少误差为止。

在此过程中其优点是不需要预先确定特征。但是这样做的缺点是模型的决策无法解释。因为解释决策很重要研究人员正在开发新的方法来理解深喥学习的黑盒。

深度学习算法有不同的变体可以与MapR的分布式深度学习快速入门解决方案一起使用,以构建数据驱动的应用程序如下所礻:

用于改进传统算法的深度神经网络。

财务:通过识别更复杂的模式来增强欺诈检测

制造:基于更深的异常检测,增强缺陷识别

用於图像的卷积神经网络。

零售:用于衡量流量的视频的店内活动分析

卫星图像:标记地形和分类对象。

汽车:识别道路和障碍物

医疗保健:X射线,扫描等的诊断机会

保险:根据照片估算索赔严重程度

用于测序数据的递归神经网络。

客户满意度:将语音数据转录为文本鉯进行NLP分析

社交媒体:社交和产品论坛帖子的实时翻译。

照片字幕:搜索图像档案以获得新的见解

财务:通过时间序列分析(也是增強的推荐系统)预测行为。

不代表云加社区观点更多详情请查看

}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信