为什么深度学习计算机视觉没有取代传统的计算机视觉

深度学习时代的计算机视觉
[ 亿欧导读 ]
10年间,从谷歌大脑项目到百度深度学习研究院,从国家4部委联合制定《“互联网+”人工智能三年行动实施方案》到教育部门论证“智能科学与技术”作为一级学科,人工智能从顶层设计到大众普及教育均实现了爆炸式发展。
,作为计算机科学的一个分支。
从1956年夏季麦卡赛、明斯基、罗切斯特和申农等一批有远见卓识的年轻科学家首次提出,到2006年机器学习泰斗Geoffrey Hinton和他的学生RuslanSalakhutdinov在《科学》上发表了一篇开启深度学习在学术界和工业界浪潮的文章,50多年时间,无数科学家提出了很多机器学习的算法,试图让计算机具备与人一样的智力水平,但直到2006年深度学习算法的成功,才带来了一丝解决的希望。
过去的十年,从谷歌大脑项目到百度深度学习研究院,从国家4部委联合制定《“互联网+”人工智能三年行动实施方案》到教育部门论证“智能科学与技术”作为一级学科,人工智能从顶层设计到大众普及教育均实现了爆炸式发展。这主要得益于3个方面:
1、算法大大提升了人工智能在语音、图像处理等应用层面的准确度;
2、存储设备的容量变得越来越大,获取海量数据(无论是图片、文字、交易信息,还是地图数据)的成本越来越低;
3、GPU的发展使并行计算变得速度更快、成本更低、性能更强大。
当前的计算机科学领域,人工智能、机器学习、深度学习是大家经常提到的词,但它们之间的关系是什么呢?
人工智能是应用范畴的词汇,机器学习是一种实现人工智能的方法,深度学习是机器学习的子类,也是现有机器学习方法中,最奏效的一类。我们就用最简单的方法——同心圆,可视化地展现出它们三者的关系和应用。
机器学习应用最成功的领域是计算机视觉,包括人脸识别、指纹识别、图像检索、目标跟踪等。随着信息技术和智能技术的飞速发展,全球视觉数据正在呈现爆炸式增长,而视觉数据规模的增加也是深度学习能够很好地解决视觉问题的重要因素。近年来,深度学习在计算机视觉中应用的文章如雨后春笋般涌现出来,其达到的效果要远远超出传统的计算机视觉方法。
为什么深度学习之前,传统的计算机视觉算法在人脸识别、跟踪、目标检测等诸多领域没有达到深度学习的精度呢?我们首先回归到计算机视觉问题本身,如下图:
计算机视觉领域的细分方向成百上千种,比如图像分割、目标跟踪、人脸识别、行为分析等等,但这些方向的研究均符合上图流程框架,即,将待处理的图像或者视频输入设计好的算法,通过计算,输出结果。以图像分割为例,我们期望算法可以将图像中的待分割目标,完美地分割出来。不同的计算机视觉算法,对应不同的处理器。
传统的计算机视觉算法
对于传统的视觉算法来说,大致可以分为以下4个步骤:图像预处理、特征提取、特征筛选、推理预测与识别。计算机视觉可以说是机器学习在视觉领域的应用,所以计算机视觉在采用这些机器学习方法的时候,不得不自己设计前面3个部分(相当于将处理器分拆成多个子功能处理器)。但对任何人来说这都是一个比较难的任务。
传统的计算机识别方法把特征提取和分类器设计分开来做,然后在应用时再合在一起,比如如果输入是一个摩托车图像的话,首先要有一个特征表达或者特征提取的过程,然后把表达出来的特征放到学习算法中进行分类的学习。
过去20年中出现了不少优秀的特征算子,比如最著名的SIFT算子,即所谓的对尺度旋转保持不变的算子。它被广泛地应用在图像比对,特别是所谓的structure from motion这些应用中,有一些成功的应用例子。另一个是HoG算子,它可以提取物体,比较鲁棒的物体边缘,在物体检测中扮演着重要的角色。这些算子还包括Surf、RIFT和GLOH,都是在深度学习诞生之前或者深度学习真正的流行起来之前,占领视觉算法的主流。
这些特征和一些特定的分类器组合取得了一些成功或半成功的例子,基本达到了商业化的要求但还没有完全商业化,比如指纹识别算法、基于Haar的人脸检测算法、基于HoG特征的物体检测。但这种成功例子太少了,因为手工设计特征需要大量的经验,需要你对这个领域和数据特别了解,然后设计出来特征还需要大量的调试工作。说白了就是需要一点运气。
另一个难点在于,你不只需要手工设计特征,还要在此基础上有一个比较合适的分类器算法。同时设计特征然后选择一个分类器,这两者合并达到最优的效果,几乎是不可能完成的任务。
深度学习时代的计算机视觉
深度学习的前世
深度学习网络的最初原型是人工智能领域的大牛Lecun在1998年AT&T的实验室时发明出来的,当时用这一网络进行字母识别,达到了非常好的效果。说到这里,我们不禁要问,“似乎卷积神经网络设计也不是很复杂,98年就已经有一个比较像样的雏形了。自由换算法和理论证明也没有太多进展。那为什么时隔20年,卷积神经网络才能卷土重来,占领主流?”
这一问题与卷积神经网络本身的技术关系不太大,与其它一些客观因素有关。
首先,深度卷积神经网络需要大量数据进行训练。网络深度太浅的话,识别能力往往不如一般的浅层模型,比如SVM或者boosting;如果做得很深,就需要大量数据进行训练,否则机器学习中的过拟合将不可避免。而2006年开始,正好是互联网开始大量产生各种各样的图片、视频数据的时候(即视觉开始爆发式地增长)。
另外一个条件是运算能力。卷积神经网络对计算机的运算要求比较高,需要大量重复可并行化的计算,在当时CPU只有单核且运算能力比较低的情况下,不可能进行个很深的卷积神经网络的训练。随着GPU计算能力的增长,卷积神经网络结合大数据的训练才成为可能。
最后一点就是人和。卷积神经网络有一批一直在坚持的科学家(如Lecun)才没有被沉默,才没有被海量的浅层方法淹没。最后终于看到卷积神经网络占领主流的曙光。
深度学习的今生
深度学习的概念由Hinton等人于2006年提出,具备天时地利人和的深度学习从此一发不可收拾,其在计算机视觉的诸多领域取得的效果远超传统机器学习算法,包括人脸识别、图像问答、物体检测、物体跟踪。
人脸识别方面,工作比较超前的是汤晓鸥教授,他们提出的DeepID算法在LWF上做得比较好。最新的DeepID-3算法,在LWF达到了99.53%准确度,与肉眼识别结果相差无几。
物体检测方面,2014年的Region CNN算法、2015年的Faster R-CNN方法、FACEBOOK提出来的YOLO网络、在arXiv上出现的最新算法叫Single Shot MultiBox Detector在识别精度和速度上均与较大提升。
物体跟踪方面,DeepTrack算法是第一在线用深度学习进行跟踪的文章,当时超过了其它所有的浅层算法。此后越来越多的深度学习跟踪算法提出。
5月25日,相约北京·千禧酒店,与安防大咖共话安防AI创新千人峰会,人脉、资源、投资人都在这里!亿欧呈献一场安防行业盛宴。
在安防、警务、刑侦、交通场景,AI无论在视频、图片、语音、文本等方向的突破,还是在资本和需求的推动下,都展示了创新改造者姿态。这次浪潮来得尤其猛烈,我们相信,AI正改变安防,AI正为安防带来创新。
点此了解详情:
本文系投稿稿件,作者:郭永蓉;转载请注明作者姓名和“来源:亿欧”;文章内容系作者个人观点,不代表亿欧对观点赞同或支持。
快来扫描二维码,参与话题讨论吧!
微信扫码登录
发送验证码
发送验证码
发送验证码
如果你遇到下面的问题
我在注册/找回密码的过程中无法收到手机短信消
我先前用E-mail注册过亿欧网但是现在没有办法通过它登录,我想找回账号
其他问题导致我无法成功的登录/注册
账号密码登录
关联已有账户
曾经使用手机注册过亿欧网账户的用户
创建并关联新账户
曾用微信登录亿欧网但没有用手机注册过亿欧的用户
没有注册过亿欧网的新用户
先前使用邮箱注册亿欧网的老用户,请点击这里进入特别通道
填写个人信息
扫描二维码,下载亿欧客户端
Android & iOS
亿欧公众号
小程序-亿欧plus在 SegmentFault,学习技能、解决问题
每个月,我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。
标签:至少1个,最多5个
摘要: 深度学习大潮为什么淹没传统的计算机视觉技术?听听大牛怎么说~
这篇文章是受到论坛中经常出现的问题所创作的:
深度学习是否可以取代传统的计算机视觉?
这明显是一个很好的问题,深度学习(DL)已经彻底改变了计算机视觉(CV)和人工智能。许多曾经看起来不可能解决的问题都解决了,机器获得比人类更好的结果。图像分类可能就是最好的例子。
但深度学习仍然只是解决计算机视觉领域内问题的工具之一。它并不是解决该所有问题的万能药。在这篇文章中,我想详细说明这一点。也就是说,我想阐述一下为什么传统的计算机视觉技术仍然非常有用。
我将把这篇文章分成以下部分:
深度学习需要大数据。
深度学习有时是过拟合的。
传统的计算机视觉知识可以将帮助你进行深度学习。
但在我讨论这些论点之前,我认为有必要首先详细解释什么是“传统的计算机视觉”、深度学习是什么以及它为什么如此有破坏力。
在进行深度学习之前,如果你有诸如图像分类之类的任务,这时你需要执行一个称为特征提取的步骤,特征提取是非常“有趣的”。我这篇文章中将要提到一些传统的计算机视觉技术(包括诸如边缘检测,角点检测,物体检测等等)。
在使用这些技术时,例如在特征提取和图像分类方面,我们想的是从一类对象(例如椅子,马等)的图像中提取尽可能多的特征,并将这些特征视为一种“定义”(被称为“袋”)的对象。然后,你会在其他图像中搜索这些“定义”。如果一个袋子中的大量特征位于另一个图像中,则该图像被分类为包含该特定对象(即椅子,马等)。
这种图像分类特征提取方法的难点在于,你必须选择在每个给定图像中查找哪些特征。当你尝试分类的类别数量开始增加,例如10或20时,这会变得很麻烦并且变得几乎不可能。你是否寻找边缘?纹理信息?使用不同类型的功能可以更好地描述不同类别的对象。如果你选择使用许多特征,则必须处理大量参数,所有这些参数都必须由你进行微调。
那么,深度学习介绍了端到端的学习概念,其中(简而言之)机器被告知要针对每个特定类别的对象学习要寻找什么。它为每个对象提供了最具描述性和显着的特征。换句话说,神经网络已经被告知发现图像类别中的底层模式。
因此,通过端到端的学习,你不再需要手动决定使用传统计算机视觉技术来描述你的特征。有线杂志这样说道:
例如,如果你想教一个神经网络来识别一只猫,那么你不要告诉它寻找胡须,耳朵,毛皮和眼睛。你只需要展示成千上万张猫的照片,最终就能解决问题。如果它将狐狸误分类为猫,你不需要重写代码,你只需要做的是继续训练。
下面的图片描绘了特征提取(使用传统的方法)和端到端学习之间的差异:所以,这是整篇文章的背景。接下来,让我们来看看为什么传统的计算机视觉仍然是必要的,有益的。
深度学习需要大数据
首先,深度学习需要数据,很多很多的数据。上面提到的那些著名的图像分类模型都是在大数据集上进行训练的,这些用于训练的数据集的前三名是:
ImageNet——包含 1000个对象类别/类的 150万个图像。上下文中的Microsoft通用对象(COCO)——250万个图像,91个对象类别。PASCAL VOC数据集 ——500K图像,20个对象类别。比一般图像分类更容易的任务不需要这么多的数据,但你仍然需要很多数据。如果你无法获得那么多的数据,你根本不知道会发生什么?(确实也有一些技巧可以提高你的训练数据量,但这些是人为的方法)。
没有充足的数据,训练出来的模型一般表现都不好,因为一台机器没有洞察能力,它不能在没有看到数据的情况下概括它看到的东西。
对于你来说,看到训练好的模型并且手动调整一些东西太困难了,因为深度学习模型里面有数百万个参数,其中每个参数在训练过程中都会被调整。从某种意义上说,深度学习模式是一个黑匣子。
传统的计算机视觉为你提供了充分的透明度,使你能够更好地评估和判断你的解决方案是否可以在训练环境之外进行工作。你可以深入了解算法中存在的问题,如果有任何不妥,你可以很容易地弄清楚在哪里以及需要调整什么。
深度学习有时会发生过度拟合:
这可能是我支持传统计算机视觉技术研究的最佳理由。训练深度神经网络需要很长时间,你需要专用硬件(例如,高性能GPU),在很长的时间内训练最新的最先进的图像分类模型。
此外,如果你的训练模型表现不佳,会发生什么?你必须返回并用不同的训练参数重做整个过程,而且这个过程有时可能重复数百次。
但有时候这些都是不必要的,因为有时传统的CV技术可以比DL更有效地解决问题,并且代码行数更少。例如,我曾经参与过一个项目,以检测通过传送带的每个锡罐是否有红色的勺子。现在,你可以训练一个深度神经网络来检测勺子,或者你可以对红色上编写简单的颜色阈值算法(红色的某个范围内的任何像素都是白色的,每个其他像素是黑色的),然后计算你有多少白色像素。
了解传统的计算机视觉可能会为你节省大量时间和减少一些不必要的麻烦。
传统的计算机视觉将提高你的深度学习技能:
理解传统的计算机视觉实际上可以帮助你更好地进行深度学习。
例如,计算机视觉中使用的最常见的神经网络是卷积神经网络。但什么是卷积?它实际上是一种广泛使用的图像处理技术(例如参见Sobel边缘检测)。了解这可以帮助你了解你的神经网络做了什么,因此可以更好地设计和调整你尝试解决的任务。
然后还有一件事叫做预处理。这是经常对你提供的模型的数据进行准备以进行训练。这些预处理步骤主要通过传统的计算机视觉技术来完成。例如,如果你没有足够的训练数据,则可以执行称为数据增加的任务。数据增加可以包括对训练集中的图像执行随机旋转,移位,剪切等,以创建“新”图像。通过执行这些计算机视觉操作,你可以大大增加你拥有的训练数据量。
在这篇文章中,我解释了为什么深度学习没有取代传统的计算机视觉技术,为什么后者仍应该学习。首先,我发现了DL经常需要大量数据才能执行的问题。其次,深度学习对于特定任务来说可能会出现过度拟合现象。在这样的任务中,标准的计算机视觉可以比DL更有效地解决问题,并且代码行数更少。第三,认识传统的计算机视觉实际上可以让你更好地进行深度学习。这是因为你可以更好地了解DL到底正在做什么,并且你可以执行某些预处理步骤来改善DL结果。
简而言之,深度学习只是计算机视觉的工具,当然不是万能药。不要只用它,因为它现在是新潮。传统的计算机视觉技术仍然非常有用,知道它们可以为你节省时间和解决许多麻烦。
本文由阿里云云栖社区组织翻译。
文章原标题《Why Deep Learning Has Not Superseded Traditional Computer Vision》
作者:Zbigniew
更为详细的内容,请查看
0 收藏&&|&&0
你可能感兴趣的文章
分享到微博?
我要该,理由是:
在 SegmentFault,学习技能、解决问题
每个月,我们帮助 1000 万的开发者解决各种各样的技术问题。并助力他们在技术能力、职业生涯、影响力上获得提升。深度学习时代的计算机视觉
已有 1263 次阅读
|系统分类:|关键词:人工智能,计算机,数学家,深度学习|
在上世纪50年代,数学家图灵提出判断机器是否具有人工智能的标准:图灵测试。图灵测试是指测试者在与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。图灵测试一词来源于计算机科学和密码学的先驱阿兰·麦席森·图灵写于1950年的一篇论文《计算机器与智能》,其中30%是图灵对2000年时的机器思考能力的一个预测,但是从图灵测试提出来开始到本世纪初,50多年时间有无数科学家提出很多机器学习的算法,试图让计算机具有与人一样的智力水平,但直到2006年深度学习算法的成功,才带来了一丝解决的希望。前深度学习时代的计算机视觉为什么深度学习之前,传统计算机视觉算法在人脸识别、跟踪、目标检测等诸多领域没有达到深度学习的精度呢?回答这一问题,需要我们先了解传统算法的特点。对于视觉算法来说,大致可以分为以下4个步骤:图像预处理、特征提取、特征筛选、推理预测与识别。计算机视觉可以说是机器学习在视觉领域的应用,所以计算机视觉在采用这些机器学习方法的时候,不得不自己设计前面3个部分。但对任何人来说这都是一个比较难的任务。传统的计算机识别方法把特征提取和分类器设计分开来做,然后在应用时再合在一起,比如如果输入是一个摩托车图像的话,首先要有一个特征表达或者特征提取的过程,然后把表达出来的特征放到学习算法中进行分类的学习。 过去20年中出现了不少优秀的特征算子,比如最著名的SIFT算子,即所谓的对尺度旋转保持不变的算子。它被广泛地应用在图像比对,特别是所谓的structure from motion这些应用中,有一些成功的应用例子。另一个是HoG算子,它可以提取物体,比较鲁棒的物体边缘,在物体检测中扮演着重要的角色。这些算子还包括Textons,Spin image,RIFT和GLOH,都是在深度学习诞生之前或者深度学习真正的流行起来之前,占领视觉算法的主流。这些特征和一些特定的分类器组合取得了一些成功或半成功的例子,基本达到了商业化的要求但还没有完全商业化。比如指纹识别算法、基于Haar的人脸检测算法、基于HoG特征的物体检测。但这种成功例子太少了,因为手工设计特征需要大量的经验,需要你对这个领域和数据特别了解,然后设计出来特征还需要大量的调试工作。说白了就是需要一点运气。另一个难点在于,你不只需要手工设计特征,还要在此基础上有一个比较合适的分类器算法。同时设计特征然后选择一个分类器,这两者合并达到最优的效果,几乎是不可能完成的任务。深度学习时代的计算机视觉深度学习的前世 深度学习网络的最初原型是人工智能领域的大牛Lecun在1998年AT&T的实验室时发明出来的,当时用这一网络进行字母识别,达到了非常好的效果。我们不禁要问:似乎卷积神经网络设计也不是很复杂,98年就已经有一个比较像样的雏形了。自由换算法和理论证明也没有太多进展。那为什么时隔20年,卷积神经网络才能卷土重来,占领主流?这一问题与卷积神经网络本身的技术关系不太大,与其它一些客观因素有关。首先,深度卷积神经网络需要大量数据进行训练。网络深度太浅的话,识别能力往往不如一般的浅层模型,比如SVM或者boosting;如果做得很深,就需要大量数据进行训练,否则机器学习中的过拟合将不可避免。而2006年开始,正好是互联网开始大量产生各种各样的图片数据的时候,即视觉大数据开始爆发式地增长。另外一个条件是运算能力。卷积神经网络对计算机的运算要求比较高,需要大量重复可并行化的计算,在当时CPU只有单核且运算能力比较低的情况下,不可能进行个很深的卷积神经网络的训练。随着GPU计算能力的增长,卷积神经网络结合大数据的训练才成为可能。 最后一点就是人和。卷积神经网络有一批一直在坚持的科学家(如Lecun)才没有被沉默,才没有被海量的浅层方法淹没。最后终于看到卷积神经网络占领主流的曙光。 深度学习的今生 深度学习的概念由Hinton等人于2006年提出,具备天时地利人和的深度学习从此一发不可收拾,其在计算机视觉的诸多领域取得的效果远超传统机器学习算法,包括人脸识别、图像问答、物体检测、物体跟踪。人脸识别方面,工作比较超前的是汤晓鸥教授,他们提出的DeepID算法在LWF上做得比较好。最新的DeepID-3算法,在LWF达到了99.53%准确度,与肉眼识别结果相差无几。物体检测方面,2014年的Region CNN算法、2015年的Faster R-CNN方法、FACEBOOK提出来的YOLO网络、在arXiv上出现的最新算法叫Single Shot MultiBox Detector在识别精度和速度上均与较大提升。物体跟踪方面,DeepTrack算法是第一在线用深度学习进行跟踪的文章,当时超过了其它所有的浅层算法。此后越来越多的深度学习跟踪算法提出。
转载本文请联系原作者获取授权,同时请注明本文来自赵松科学网博客。链接地址:
当前推荐数:2
推荐到博客首页
评论 ( 个评论)
扫一扫,分享此博文
作者的精选博文
作者的其他最新博文
热门博文导读
Powered by
Copyright &观点 | 为什么深度学习仍未取代传统的计算机视觉技术?
选自zbigatron作者:Zbigatron机器之心编译参与:张楚、黄小天本文作者认为,深度学习只是一种计算机视觉工具,而不是包治百病的良药,不要因为流行就一味地使用它。传统的计算机视觉技术仍然可以大显身手,了解它们可以为你省去很多的时间和烦恼;并且掌握传统计算机视觉确实可以让你在深度学习方面做得更好。这是因为你可以更好地理解深度学习的内部状况,并可执行预处理步骤改善深度学习结果。本文的灵感同样来自论坛中的一个常见问题:深度学习已经取代了传统的计算机视觉吗?或是换种说法:既然深度学习看起来如此有效,是否还有必要学习传统的计算机视觉技术?这个问题很好。深度学习确实给计算机视觉和人工智能领域带来了革命性的突破。许多曾经看似困难的问题,现在机器可以比解决的比人类还好。图像分类就是最好的印证。确实,如从前所述,深度学习有责任将计算机视觉纳入行业版图。但深度学习仍然只是计算机视觉的一个工具,且显然不是解决所有问题的灵丹妙药。因此,本文会对此进行详细阐述。也就是说,我将说明传统的计算机视觉技术为何仍十分有用,值得我们继续学习并传授下去。本文分为以下几个部分/论点:深度学习需要大数据深度学习有时会做过了头传统计算机视觉将会提升你的深度学习水平进入正文之前,我认为有必要详细解释一下什么是「传统计算机视觉」,什么是深度学习,及其革命性。背景知识在深度学习出现以前,如果你有一项诸如图像分类的工作,你会进行一步叫做「特征提取」的处理。所谓「特征」就是图像中「有趣的」、描述性的、或是提供信息的小部分。你会应用我在本文中称之为的「传统计算机视觉技术」的组合来寻找这些特征,包括边缘检测、角点检测、对象检测等等。在使用这些与特征提取和图像分类相关的技术时,会从一类对象(例如:椅子、马等等)的图像中提取出尽可能多的特征,并将其视为这类对象的「定义」(称作「词袋」)。接下来你要在其它图像中搜索这些「定义」。如果在另一个图像中存在着词袋中相当一部分的特征,那么这个图像就被归为包含那个特定对象(如椅子、马等等)的分类。这种图像分类的特征提取方法的难点在于你必须在每张图像中选择寻找哪些特征。随着你试图区分的类别数目开始增长,比如说超过 10 或 20,这就会变得非常麻烦甚至难以实现。你要寻找角点?边缘?还是纹理信息?不同类别的对象最好要用不同种类型的特征来描述。如果你选择使用很多的特征,你就不得不处理海量的参数,而且还需要自己来微调。深度学习引入了「端到端学习」这一概念,(简而言之)让机器在每个特定类别的对象中学习寻找特征,即最具描述性、最突出的特征。换句话说,让神经网络去发现各种类型图像中的潜在模式。因此,借助端到端学习,你不再需要手动决定采用哪种传统机器视觉技术来描述特征。机器为你做好了这一切。《连线》杂志如此写道:举例来说,如果你想教会一个 [深度] 神经网络识别一只猫,你不必告诉它去寻找胡须、耳朵、毛或是眼睛。你只需展示给它成千上万的猫的图像,它自然会解决这一问题。如果它总是会将狐狸误认为是猫,你也不用重写代码。你只需对它继续进行训练。下图描述了特征提取(使用传统计算机视觉)和端到端学习之间的这种区别:以上就是背景介绍。现在接着讨论为什么传统计算机视觉仍然必不可少,而且学习它仍大有裨益。深度学习需要大量数据首先,深度学习需要数据,许许多多的数据。前文提到过的著名图像分类模型的训练都基于庞大的数据集。排名前三的训练数据集分别是:ImageNet——150 万图像,1000 个对象分类/类别;COCO——250 万图像,91 个对象分类;PASCAL VOC——50 万图像,20 个对象分类。但是一个训练不良的模型在你的训练数据之外很可能表现糟糕,因为机器并没有对于问题的洞察力,也就不能在没看到数据的情况下进行概括归纳。而且对你来说查看训练模型内部并进行手动调整又太过困难,因为一个深度学习模型内部拥有数以百万计的参数——每个参数在训练期间都会被调整。某种程度上说,一个深度学习模型就是一个黑箱。传统的计算机视觉完全透明,允许你更好地评估判断你的解决方案是否在训练环境之外依然有效。你对问题的深入见解可以放进你的算法之中。并且如果任何地方出现故障,你也可以更轻易地弄清楚什么需要调整,在哪里调整。深度学习有时做过了头这大概是我最喜欢的支持研究传统计算机视觉技术的理由。训练一个深度神经网络需要很长的时间。你需要专门的硬件(例如高性能 GPU)训练最新、最先进的图像分类模型。你想在自己还不错的笔记本上训练?去度个一周的假吧,等你回来的时候训练很可能仍未完成。此外,如果你的训练模型表现不佳呢?你不得不返回原点,用不同的训练参数重做全部工作。这一过程可能会重复数百次。但有时候所有这些完全没必要。因为传统计算机视觉技术可以比深度学习更有效率地解决问题,而且使用的代码更少。例如,我曾经参与的一个项目是检查每个通过传送带的罐子里是否有一个红勺子。现在你可以通过前文叙述的旷日持久的过程来训练一个深度神经网络去检测勺子,或者你也可以写一个简单的以红色为阈值的算法(将任何带有一定范围红色的像素都标记为白色,所有其它的像素标记为黑色),然后计算有多少白色的像素。简简单单,一个小时就可以搞定!掌握传统的计算机视觉技术可能会为你节省大量的时间并减少不必要的烦恼。传统计算机视觉会提升你的深度学习技巧理解传统的计算机视觉实际上能帮你在深度学习上做得更好。举例来说,计算机视觉领域最为普遍使用的神经网络是卷积神经网络。但什么是卷积?卷积事实上是一种被广泛使用的图像处理技术(比如,索贝尔边缘检测)。了解这一点可以帮助你理解神经网络内部究竟发生了什么,从而进行设计和微调以更好地解决你的问题。还有一件事叫做预处理。你输入给模型的数据往往要经过这种处理,以便为接下来的训练做准备。这些预处理步骤主要是通过传统的计算机视觉技术完成的。例如,如果你没有足够的训练数据,你可以进行一个叫做数据增强的处理。数据增强是指对你训练数据集中的图像进行随机的旋转、移动、裁剪等,从而创造出「新」图像。通过执行这些计算机视觉操作,可以极大地增加你的训练数据量。结论本文阐述了为什么深度学习还没有取代传统计算机视觉技术,以及后者仍值得学习和传授。首先,本文将目光放在了深度学习往往需要大量数据才能表现良好这一问题上。有时并不具备大量数据,而传统计算机视觉在这种情况下可作为一种替代方案。第二,深度学习针对特定的任务偶尔会做过头。在这些任务中,标准的计算机视觉比起深度学习可以更为高效地解决问题,并且使用更少的代码。第三,掌握传统计算机视觉确实可以让你在深度学习方面做得更好。这是因为你可以更好地理解深度学习的内部状况,并可执行预处理步骤改善深度学习结果。总而言之,深度学习只是一种计算机视觉的工具,而不是包治百病的良药。不要因为流行就一味地使用它。传统的计算机视觉技术仍然可以大显身手,了解它们可以为你省去很多的时间和烦恼。原文链接:http://zbigatron.com/has-deep-learning-superseded-traditional-computer-vision-techniques/本文为机器之心编译,转载请联系本公众号获得授权。?------------------------------------------------加入机器之心(全职记者/实习生):投稿或寻求报道:广告&商务合作:
微信号:almosthuman2014扫描二维码关注公众号 专业的人工智能媒体和产业服务平台
Copyright2017.杨邱自媒体资讯站,让大家及时掌握各行各业第一手资讯新闻!}

我要回帖

更多关于 深度学习计算机视觉 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信