业界现在有哪些比较成熟的基于深度学习的应用

深度学习发展现状;王宇航;(北京交通大学计算机与信息技术学院,北京,100;摘要:深度学习是机器学习研究中的一个新的领域,其;行分析学习的神经网络,它模仿人脑的机制来解释数据;渐收到各界的广泛关注,其在各个尖端领域的作用也越;多领域取得客观的成就;年来深度学习在各个领域的应用及其发展.;关键字:深度学习;机器学习;人工智能;无监督学习;1引言;2011年,斯
深度学习发展现状
(北京交通大学计算机与信息技术学院,北京,100044)
摘要:深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进
行分析学习的神经网络,它模仿人脑的机制来解释数据。近年来,随着深度学习逐
渐收到各界的广泛关注,其在各个尖端领域的作用也越来越大,深度学习已经在诸
多领域取得客观的成就。本文简要介绍深度学习的基本理论及思想,着重介绍了近
年来深度学习在各个领域的应用及其发展.
关键字:深度学习;机器学习;人工智能;无监督学习
2011年,斯坦福人工智能实验室主任吴恩达领导Google的科学家们,用16000台电脑模拟了一个模拟人脑神经网络出来,并向这个网络展示了1000万段随机从YouTube上选取的视频,看看它能学会什么.结果在完全没有外界干涉的条件下,它自己识别出了猫脸.
我们要注意的是,这种机器学习与我们通常意义上说的“机器识别”有所不同.现有的很多此类识别,需要人工输入一些用于对比的数据,或者一些已经进行初步分类、打好标签的数据,机器通过学习这些数据的共同点,得出规律,然后再去将规律应用于更大规模的数据中.粗略地说,这是一种“有监督的学习”,需要人工输入初始数据,有时候还要对识别结果进行判断,由此促进机器的学习速度.
而深度学习是一种“无监督的学习”.它基于一种学术假设:即人类对外界环境的了解过程最终可以归结为一种单一算法,而人脑的神经元可以通过这种算法,分化出识别不同物体的能力.这个识别过程甚至完全不需要外界干预.
还是以识别猫脸为例:吴恩达给神经网络输入了一个单词“cat”,这个神经网络中并没有辞典,不了解这个单词的含义.但在观看了一千万段视频,它最终确定,cat就是那种毛茸茸的小动物.这个学习过程,与一个不懂英语的人,在没任何人教他的时候,通过独立观察学会“cat”的过程几乎一致.
上述事例是深度学习发展中具有里程碑性质的事件,通过以上事件意在形象的向读者说明深度学习的基本思想.本文意在向读者介绍近年来深度学习在各个领域的应用及其发展.
2 深度学习介绍
本节简要介绍深度学习及其思想.
2.1 基本概念
深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据。
深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
2.2 核心思想
把学习结构看作一个网络,则深度学习的核心思路如下:
①无监督学习用于每一层网络;
②每次用无监督学习只训练一层,将其训练结果作为其高一层的输入;
③用监督学习去调整所有层
2.3 历史发展
图灵在 1950 年的论文里,提出图灵试验的设想,即,隔墙对话,你将不知道与你谈话的,是人还是电脑。这无疑给计算机,尤其是人工智能,预设了一个很高的期望值。但是半个世纪过去了,人工智能的进展,远远没有达到图灵试验的标准。
2006年前,尝试训练深度架构都失败了:训练一个深度有监督前馈神经网络趋向于产生坏的结果(同时在训练和测试误差中),然后将其变浅为1(1或者2个隐层)。
2006年,加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton和他的学生Ruslan Salakhutdinov在《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要观点:1)多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;2)深度神经网络在训练上的难度,可以通过“逐层初始化”来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。
当前多数分类、回归等学习方法为浅层结构算法,其局限性在于有限样本和计算单元情况下对复杂函数的表示能力有限,针对复杂分类问题其泛化能力受到一定制约。深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。(多层的好处是可以用较少的参数表示复杂的函数)。
深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学
习更有用的特征,从而最终提升分类或预测的准确性。因此,“深度模型”是手段,“特征学习”是目的。区别于传统的浅层学习,深度学习的不同在于:1)强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点;2)明确突出了特征学习的重要性,也就是说,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易。与人工规则构造特征的方法相比,利用大数据来学习特征,更能够刻画数据的丰富内在信息。
从2006年以来,大量的关于深度学习的论文被发表。
3 深度学习的应用现状及发展
3.1 深度学习在各个领域的应用概述
自2006 年以来,深度学习在学术界持续升温,美国,加拿大,欧洲相继成为此领域的科研重镇。2010年美国国防部先进研究项目局首次资助深度学习,参与方包括斯坦福大学、纽约大学和NEC 美国研究院等机构。
2011 年,微软语音识别采用深度学习技术降低语音识别错误率20-30%,是该领域十多年来最大的突破性进展。
2012 是深度学习研究和应用爆发的一年,深度学习被应用于著名生物制药公司a克的分子药性预测问题, 从各类分子中学习发现那些可能成为药物的分子获得世界最好效果;谷歌的Google Brain 项目用16000 个处理器的服务器集群构建了一套超过10 亿个节点的具备自主学习能力的神经网络,能自动从输入的大量数据中归纳出概念体系,图片搜索、无人驾驶汽车和Google Glass 都将会从中受益。6月,Google公司的深度学习系统在识别物体的精确度上比上一代系统提高了一倍,并且大幅度削减了Android系统语音识别系统的错误率。百度引入深度学习以后,语音识别效果的提升超过了以往业界在过去15 年里所取得的成绩。12月,微软亚洲研究院展示了中英即时口译系统,错误率仅为7%,而且发音十分顺畅。
2013年,欧洲委员会发起模仿人脑的超级计算机项目,计划历时10 年投入16 亿美元,由全球80 个机构的超过200 名研究人员共同参与,希望在理解人类大脑工作方式上取得重大进展,并推动更多能力强大的新型计算机的研发,就资助力度,项目范围,和雄心而言,该项目堪比于大型强子对撞机项目。
库兹韦尔当前的目标就是帮助计算机理解自然语言并以自然语源与用户对话,虽然库兹韦尔的目标还要很多年才能实现。他希望将深度学习算法用到解决自然语言的问题上,让计算机能够发现语言的问题,解决语言的问题。
由于计算机的高度普及,很多人可能已经固化了“搜索”的印象:面对屏幕上的一个输入框,敲入一串词语,电脑返回一堆链接,用户再逐个点开查看哪个是自己需要的内容。这是传统的搜索,其交互方式是人工提炼出关键词输入,才返回答案。所以使用搜索引擎其实是一种技术,考验的是人能否准确观察问题、恰当提炼主题词,做到这些才有可能得到自己想要的信息。这就与一切搜索引擎“公平地为每个人提供信息”的初衷相悖了。
但当我们要教会从没接触过电脑的父母这一搜索过程时,就发现它与人类天生的本能并不相同:父母们往往会指着一株不知名的植物,问电脑是否能告诉我们这是什么;他们也并不习惯键入文字内容,甚至不会输入法,他们更希望对着电脑说一句“明天什么天气”就能得到答案。
2013年初,百度建立了深度学习研究院。百度多媒体业务负责人用一个叫“明星脸搜索”的产品演示了人脸搜索能力。改产品的功能是实验对象实时拍一张照片,百度可以搜索出这张照片最像哪个明星。令人惊奇的是,在百度作为参考列出的互联网图片搜索照片中出现的第一张图片就是此次实验对象10年前拍的一张照片。也就是说,在没有任何其他条件限定的前提下,百度根据一个现实场景,找到了一个确定的人。
深度学习的技术配合上大数据的储备,语音搜索、图像搜索等新兴技术就不再仅仅是技术的噱头,而是将搜索用户从数亿拓展到数十亿。这也是Google、苹果和百度纷纷在语音搜索上推出新产品的原因。
另外值得一提的是,在今年国际机器学习大会ICML2013中,Andrew的学生仅用价值2万美元的GPU集群,就做到了与引言中提到的Google曾经用约100万美元做的猫脸识别软件相同的准确率。
3.3 深度学习在语音识别方面的应用
2011 年,微软语音识别采用深度学习技术降低语音识别错误率20-30%,是该领域十多年来最大的突破性进展。
日,微软宣布已经研发出一种新型语音识别技术,可提供“接近即时”的语音至文本的转换服务,比目前的语音识别技术快两倍,同时,准确率提高了15%。该技术模仿人类大脑对沟通的理解方式,微软希望利用这个技术在语音识别领域保持领先。
深度神经网络技术能够像人类大脑一样工作,该技术将会取代谷歌等竞争对手在搜索和安卓产品中常用的声学技术。微软希望使用这项新技术以便在必应搜索引擎中提供速度更快和更准确的通讯。这种新技术已经在Windows Phone设备上进行测试。
在国际上,IBM、google等公司都快速进行了DNN语音识别的研究,并且速度飞快。 国内方面,科大讯飞、百度、中科院自动化所等公司或研究单位,也在进行深度学习在语音识别上的研究。
深度学习已经是计算机科学发展的大势所趋。2011年,吴恩达在谷歌内部领导建立了Google Brain项目,最近几个月,谷歌在深度学习领域的投入明显加大,收购了加拿大多伦多大学教授杰弗里?辛顿创建的人工智能机构。中国搜索巨头百度也建立了深度学习实验室,誓要在深度学习领域投入大量资源。
与此同时,日本的工程师开始构建控制机器人的人工神经网络,南非神经科学家亨利?马克曼正与来自欧盟和以色列的科学家们合作,希望能利用数千次实验得到的数据在一台超级计算机中模拟出人脑。
3.5 深度学习目前主要瓶颈
研究的困难仍在于我们无法完全掌握人类大脑的工作原理,但科学家目前在这方面进展飞速。中国的科学家正在研究一个新的大脑图谱,他们将之命名为“脑网络穹顶”项目。在美国,随着奥巴马政府宣布将支持筹建一项跨学科的科研项目“基于神经科学技术创新的人脑研究”,许多类似的项目正雨后春笋般得涌现,“大神经网络时代”已经到来。
BRAIN项目的目标之一,是为绘制大脑复杂回路图开出所需的新技术,种种迹象表明,BRAIN的工作重心就是人工智能。美国国防部研究部门称,希望 BRAIN项目能够“催生新的信息处理架构或者计算方法”。
如果我们能够搞清楚人类大脑成千上万的神经元如何互相连结以及中枢神经系统存储和处理信息的原理,那么像吴恩达这样的工程师对于“人工大脑”的设想就能够更加清晰,对于人脑的研究成果和数据将能购帮助深度学习算法的研究,也能加速诸如计算机“视觉”、语言分析,以及苹果和谷歌等公司为智能手机提供的语音识别等技术的发展。
引用加州大学伯克利分校计算神经科学家布鲁诺?奥尔斯豪森的一句话――我们要学习生物生存使用的技巧,问题的关键在于生物将秘密隐藏得太深了,我们还没有掌握这些秘密所需要的工具。
由深度学习引爆的科技革命,将会催生出多个领域的变革和跨越式发展。首先,深度学习作为核心信息技术,将本质上提升各类信息服务的质量,大幅提升自然语言、图片、声音识别和语言翻译等方面的准确率,可以预见未来的信息服务尤其是互联网信息服务的竞争,将聚焦于深度学习引发的数据智能,能否应用好深度学习将会对信息企业乃至国家的信息安全产生深远影响。另外,由深度学习带来的各项突破,包括计算机视觉发展推动了下一代智能汽车的不断完善,以及应用于蛋白质分析等生物和医药领域并取得重要成果,都预示着深度学习不仅成为新一代信息科学研究的主流方法,更逐渐演变为一项核心通用技术和基础技术,对于物联网、智能设备、自动驾驶汽车、生物制药、金融和经济调控等多领域具有非常
三亿文库包含各类专业文献、高等教育、幼儿教育、小学教育、应用写作文书、行业资料、生活休闲娱乐、文学作品欣赏、中学教育、深度学习发展现状81等内容。 
 作为 Q&A 系列的一部分,我们邀请了一些深度学习方面最为资深的人士,来预测深度学习领域未来 5 年的可能 发展情况。 未来 5 年我们可能看到深度学习会有怎样的发展...  再如,段金菊、余胜泉的《学习科学视域下的 eLearning 深度学习研究》,该文以其所构建的 e-Learning 深度学习分析框架模型为依据,剖析 了深度学习的研究现状,提出了...  2016年深度学习行业现状及发展趋势展望分析报告_调查/报告_表格/模板_实用文档。2016 年深度学习行业分析报告 【2016 年 10 月】 精品行业分析报告 目录 第一节 ...  2006 年前后, CIFAR (加拿大高级研究院)把一些研究者聚集在一起, 人们对深度...当句子是来自 大量的真实文本并且个别的微规则不可靠的情况下,学习 单词向量也...  浅谈“深度学习”的有效策略_教学案例/设计_教学研究_教育专区。浅谈“深度学习”的有效策略湖北省广水市长岭镇中心小学 杨明权 在我们的教学中,我们更多的是关注...  深度学习的研究_小学作文_小学教育_教育专区。深度学习的研究 姓名:21321 班级:...简而言之,在大数据情况下,也 许只有比较复杂的模型, 或者说表达能力强的模型,...  和学校自主编印的《学生 深度学习能力培养的研究文献综述》等课题相关的理论,让教师了解目前国内外有关深度 学习的研究现状、成果和学校学生深度学习能力研究的动态与...  深度学习的研究 1、定义和背景: 1.1 深度学习(DL)有各种相近的定义或者高...浅层结构 的局限性在于有限的样本和计算单元情况下对复杂函数的表示能力有限, ...  促进深度学习的课堂教学策略研究 2015 年 04 月 20 日 15:23 来源:《课程 ...从课堂学习 的现状来看,和传统的死记硬背、机械训练的学习相比,“自主、合作、...William Gibson, Neuromancer
或许连黄鼎隆自己都没有意识到,他的名字首字母(DingLong)的缩写恰好也是深度学习(Deep Learning)的缩写。
他和美国人码特(Matt Scott)创立的是一家专注于深度学习的技术公司。两位创始人,一个出生于30多年前刚刚被改革开放春风拂过的深圳,入学清华读博士从未有海外留学的经历;另一人则来自大苹果城纽约,身为犹太人早在90年代就来到中国并这块土地及人结下了不解之缘。
在差异性和多元化的浪潮在太平洋彼岸的美国逐渐退却之时,在中国,两个有着不同文化背景及人生经历的人走在一起结成创业伙伴,一种微妙而有趣的关系蔓延在两人之间。
尽管来到中国十多年,但是码特的中文依然不灵光,在接受采访时还要黄鼎隆充当翻译,但是,想必是在中国同事的耳濡目染下,码特已经习惯成自然地将 C++ 称作“C 加加”,而在黄鼎隆慢条斯理地向别人介绍公司的情况的同时,美国人却又往往扮演起热情而炽烈的布道者,他带着纽约人特有的自豪与夸耀的语气向别人讲述他对中国和中国人民的爱。
在过去两年多的时间里,创业的两人始终处在深邃却又激烈的漩涡之中,何止是他们,还有某个因为工作上除了纰漏就哭鼻子的兼通英日双语的小姑娘,他们都在宵衣旰食的创业人生中沉浮激荡。
又何止这家公司,在过往的两年甚至可以追溯得更久远的时间里,以人工智能及深度学习为例的技术领域和整个商业世界都在猛烈地生老病死进行着新陈代谢,而更大的现实世界更是如此。
世界一直在变,在此变化着的世界里,那些本就各异的人,他们又发生着怎样的变化,他们又在自己力所能及的范围如何改变这个世界。
早在两千多年前,希腊的亚里士多德(Aristotle)就说过,了解你自己是智慧的初始。然而自图灵(Alan Turing)提出他伟大的计算机和人工智能构想之后,自机器出现以后,人类就已经不再只是满足于仅仅了解自身,他们试图建筑一座后现代的技术巴别塔,让人和机器之间不再有隔阂,他们想更多地了解机器,了解蕴含于0和1里的混沌世界。
正是这样的野心和好奇心,不断推动着人工智能和随后的机器学习深度学习的进步发展。
1943年,沃伦. 麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts)在阈值逻辑算法的基础上提出了可以应用于神经网络的计算模型。8年后,被后人誉为“人工智能之父”的马文·明斯基(Marvin Minsky)在他24岁的时候就组装了出了历史上第一台神经网络学习机器 SNARC。
年轻时的罗森布拉特 来源:peoples
基于只有简单加减法运算的两层电脑神经网络,弗兰克o罗森布拉特(Frank Rosenblatt)在1957年创造出了可以进行模型识别的“感知器”(Perceptron),他同时还提出了加入数学符号的神经网络层,而这样的想法直到整整20年后才得以实现,同时,罗森布拉特描绘的在“感知器”中应用的异或逻辑电路系统直到保罗·维博思(Paul Werbos)在近20年后提出“反向传播算法”(Backpropagation)时才应用到神经网络之中。
然而,明斯基和西摩尔·帕普特(Seymour Papert)在1969年出版的书里提出了计算器机器应用神经网络的两大阻碍因素,他们认定感知器无法处理或与逻辑电路,同时,他们还相信电脑没有足够的运算能力来满足大规模神经网络的长时间运行。两位权威人物的意见意外地中断了人工智能研究的势头和方向,罗森布拉特的天才设想被业界抛弃,人工智能的发展在整个70年代几乎陷入了万马齐喑的境地。
1971年,在43岁生日当天,罗森布拉特乘船不幸发生意外英年早逝,而就在这年,有科学家提出了利用 GMDH(Group Method of Data Handling,数据分组处理)算法来训练组成一个8层的深度网络,直到1979年,斯坦福大学的团队终于造出了可以自行在房间内导航并规避障碍物的“斯坦福车”(Stanford Cart),一年后,福島邦彦公布了用于识别手迹的多层神经网络“神经认知机”(Neocognitron),这套算法激发了随后的卷积神经网络的诞生。
在1989年,法国的燕乐存(Yann LeCun)团队成功地将反向传播算法应用了深度神经网络中以实现识别邮件上的手写邮编,但缺点同样也异常显著,他们光用算法训练深度网络就耗费了3天的时间,深度神经网络在此时显然没有任何实用性可言。
三年后,翁巨扬提出了“生长认知网”(Cresceptron),成功地从2维和3维混杂的场景中自动识别出了3D 对象,和日本科学家的神经认知机需要程序员手动合并识别中的某些特征不同的是,生长认知网可以自动学习每一层神经网络里未被监督的特征,后者还同时能在神经网络里通过后台分析将习得的项目分门别类。
尤尔根·施密特胡博(Jürgen Schmidhuber)在1993年利用神经历史压缩机通过“递归神经网络”(recurrent neural networks,RNNs)解决了一个同时有上千层神经网络展开的“非常深度学习”的任务。
两年后,科学家们进一步证明了,利用算法可以成功训练一个紧密联系的6层神经网络,尽管整个训练过程耗时长达2天。根据燕乐存的估计,在本世纪初时,递归神经网络识别处理全美一到两成的手写支票。
但是,由于在人工智能神经网络(Artificial Neural Networks)过长的计算时间以及科学家们当时一直不清楚人类大脑通过生物网络自主连线的运行机理,于是,在90年代及整个千禧年初期,神经网络和深度学习在实践上并没有大规模开展。
2014年时在 Google 工作的辛顿 Photo: Josh Valcarcel/WIRED 来源:WIRED
事实上,早在80年代中期,深度学习的相关理论就已经在机器学习领域开始得到传播,而到了新千年,前者也开始流传到了人工智能神经网络界,但是直到2006年,杰弗里·辛顿(Geoffrey Hinton)和鲁斯兰·萨拉库蒂诺夫(Ruslan Salakhutdinov)的研究成果引起了大家的关注和热情。
他们指出,一个多层的“前向反馈神经网络”(feedforward neural network)可以一次预训练一层神经网络并像未被监督的受限玻尔兹曼机(restricted Boltzmann machine)一样依次训练每一层,在此基础上调整好它对监督下的反向传播算法的应用。这使得提升深度学习速度有了切实的操作可能性。
深度学习越来越多地从实验理论投入到了应用领域。
深度学习在语音识别领域体现出了前所未有的巨大优势
2009年,邓力邀请辛顿到雷蒙德的微软研究院进行深度学习在语音识别上的应用研究,两人共同组织了当年 NIPS 上该领域的研讨会,是次主要讨论了语音深度生成模型(deep generative model)方面的限制和基于深度神经网络(deep neural nets,DNN)的大数据领域存在的可能性。
两位科学家的研究最终得出让人惊喜的成果,他们发现,即使没有预训练,通过对数据尤其是大量基于文本输出层的深度神经网络的训练,错误率较之 GMM-HMM 和其他高级生成模型的语音识别系统都出现了显著的降低,其他几个主要的语音识别研究团队也证实了邓力和辛顿的结论。
深度学习震动了整个语音识别领域,同样是在这一年,斯坦福大学的李飞飞教授开放了她在2007年创建的 ImageNet 的数据库。
2012年还在 Google 的吴恩达 Credit Jim Wilson/The New York Times 来源:《纽约时报》
在过往,被用来训练图片处理识别的数据库主要是 MNIST,它涵盖了6万张训练图片和1万张测试图片,截至目前为止,研究团队在 MNIST 上取得的最佳成绩是0.23%的错误率,到了2012年,丹·奇雷商(Dan Ciresan)团队在 CVPR 上提交的论文向大家展示了 GPU 上最大池化(max-pooling)的卷积神经网络在提升视觉 Benchmark 记录上的惊人表现。
是年,吴恩达(Andrew Ng)和杰夫·迪恩(Jeff Dean)带领下的 Google Brain 利用超过1.6万台电脑处理器组建了一个神经网络,他们从1000万段 YouTube 的视频中抽取一帧分辨率为200 X 200的缩略画面来训练神经网络从中识别出猫。
深度学习第一次赢得了 ImageNet 竞赛
在这一年,辛顿团队里的两名年轻人利以巨大优势赢得了当年的 ImageNet 竞赛,这是深度学习首次参加到竞赛中去,随后,奇雷商团队也在医学图片的癌症发现上赢得了 ICPR,深度学习所体现出的巨大威力震惊了整个世界。
到了2013年时,ImageNet 竞赛的前20名无一例外全部采用了深度学习技术,排名第一的纽约大学将错误率降低到了0.11197,在物体识别项目中,排名第一的阿姆斯特丹大学(University of Amsterdam)和 Euvision Technologies 组建的团队的平均正确率均值(Mean Average Precision)还只有0.22581。到次年时,Google 在两个类别的竞赛都获得了第一,错误率和均值则分别为0.033。
终于,深度学习从理论的象牙塔里走到了现实世界里中。
在1960年的阿尔弗雷德·科日布斯基纪念演讲(Alfred Korzybski Memorial Lecture)上,麦卡洛克这样指出,探究知识的生理学基层的目的就在于为了在“我们如何知道我们所知”这个问题上获得一个让人满意的解释。
半个多世纪以后,科学家们以超人的勇气和天才将这个问题问得更加深入与更加具有革命性:我们如何让机器知其所知。
对另外一些人,他们的野心和好奇在于,在让机器知其所知之后,在巴别塔建成之后,如何让“凯撒的归凯撒”,如何在这个新世界中寻找到那块商业上的应许之地。
2009年,就在深度学习将要登上历史舞台的同时,为了在搜索市场上和 Google 颉颃,微软推出了 Bing 搜索,中文名“必应”。
然而,现实情况却并不容乐观,Google 此时已经占据了六成以上的本土搜索份额,而在中国市场,百度霸占了超过3/4的搜索领地,谷歌也仅仅能抢下不到20%的市场。
在搜索市场将近固化的局面下,必应如何才能脱颖而出成了摆在当时微软中国团队最大的考验和难题。这时候,码特和黄鼎隆都在微软亚洲研究院,然而前者属于研究部门,而后者则在 MSN 做产品,在研究院的架构中,两人之间还横亘着一个工程部门。
码特并不适应自己的美国同事和他们的行事习气,他自己是一个足够勤勉为了工作目标可以日以继夜的人,但是,让码特有些遗憾的是,那些同侪却并没有如此完全投入。
对黄鼎隆来说,类似的问题也同样困扰着他,即使设在北京的亚洲研究院此时成立已经超过了11年,但彼时,微软对 Bing 更多的期望和目标还是在本土狙击 Google,没有多少人会在意关注它在受诸多非可控因素影响并已经被割据殆尽的中国搜索市场上的成长和表现。
两人都有心想要做出一些事情来改变局面。然而,大公司的弊病往往在于,不少时候,想做事的人发现,为“做事”而做的事情并不比做事本身少。
“大公司里面很多的阻力,尤其是中间的那一层肯定会很不爽嘛,你越过了我来做这个事情,而且还有品牌产品技术市场销售都有很多问题。”黄鼎隆现在对此已经习以为常。
那时候,码特已经在机器学习方面做出了一些可以转化应用的成果,但是,研究院的其他部门对此反应平平,只有黄鼎隆表示了兴趣,经过进一步的切磋,两人一拍即合。
码特的机器学习研究成果则可以把英语文本转化成朗读音频,黄鼎隆则看到了它在市场上的潜力和商业前景。在当时,微软在国内市场上尚有一战之力的只有 MSN,而这个 IM 产品最主要的用户还是城市中的白领用户,在黄鼎隆看来,这批用户对英语学习和翻译有着强烈的需求。
技术和用户需求的结合就意味着商业上的可能性。两人迅速从各自部门拉人组建团队,最终开发出了在线词典英库(Engkoo),果不其然,英库在推出后大获成功,彼时,这个内部创新产品为必应贡献了超过60%的流量,每月的用户高达400万,而且,巨大的流量为它带来了针对目标用户的英语学习广告,最终成功实现了商业变现。
黄鼎隆喜欢码特在工作上的投入和天才,码特喜欢在和黄鼎隆合作中的心无旁骛,他们的合作有了一个成功的开端。然而,这却也成为了他们此次合作关系的开始和结束:一个人选择离开,一个人选择留下。
不久之后,中国人选择去腾讯负责微博业务,此时,谁也不知道新浪微博的先发优势竟然会强大到所有竞争对手最终都先后认输投降的境地。而码特则继续留在了研究院,先后推出了必应词典和英库输入法,当然,美国人也不会料到,即使 Google 败走之后,微软依然没能在这块市场上占据自己的立足之地,始终不温不火。
直到2014年,事情才出现了改变。这一年,发生了两件事,深深地影响了黄鼎隆和码特两人。
首先,深度学习在外界的聚光灯下熠熠生彩,它的价值和意义受到越来越多人的关注重视。
其次,码特和他的中国女友结婚了。两位老友见面了,在婚礼结束后,就在举行婚礼的餐厅里,两人一边食指大动啖着烤肉,一边兴奋地讨论起深度学习会带来的变化和应用场景,他们构想出一幅具体而微的图景,两人不约而同地意识到技术的进步使曾经的某些构想有了实现的机会。
在那样的夜里,谈到最尽兴的关头,“创业”的念头闪过两人的心头,并如一粒不安的种子般扎根。
这时候,两人都处在自己职业生涯中的平稳上升期,黄鼎隆是 TripAdvisor 的中国区副总裁,而码特亦成为微软 HiPo 培训项目中的一员。在完成拼搏程度几乎和创业没有多大差别的英库项目之后,在经历了总有完备资源支持的大公司之后,摆在两人面前的最大问题是:值得为了这个他们自己此时也仅仅只能描绘出大致轮廓的图景而放弃眼前的一切吗?
随着对象和时间的不同,黄鼎隆对这个问题的答案也并不相同。
“那天晚上就很兴奋,真是晚上回去睡不着觉的感觉。那时候,就会回想起一起做英库那个项目,那对我们来说是职业生涯中很愉快很有成就感的一段时光,我们就感觉很有火花碰撞,不做不行一定要去做。”创业两年的黄鼎隆这样描述。
黄鼎隆一直是个理性的人,有时候甚至冷静低调到让周围人感到不可思议的地步。他和公司的同事打招呼说要一个人回深圳处理私事,归来后,他给大家展示的是其深圳政协委员的身份。两年前,也是如此。他并没有兴奋到立即都投身到创业的大潮之中去,那晚之后,黄鼎隆和码特花了几个月的业余时间做调研,反复切磋预演假想中的创业。
理性与感性,冷静和冲动,失败与成功,它们的界限究竟在哪里呢?
当自忖已然对计划考虑周全,理性的职业人便转身成为脱离大公司体制的自由的创业人,当已经考虑到失败的后果却依然无所畏惧,再怎么冷静的人也会禁不住冲动起来去追寻内心的召唤,当已经不再畏惧失败的时候,再怎么冷静理性的人也会具备前所未有的信心和勇气去追逐成功。
那颗创业的种子在几个月的时间里萌芽破土生长。终于,在那个让他们内心波澜万丈的夜晚的数月之后,黄鼎隆和码特终于下定了决心,他们要去创业。
黄鼎隆对创业与否这个问题的答案还有另外一个版本。
在18个月前,他告诉他的清华后辈们“成败未定,创业本来就是一个九死一生的事情”,他告诉年轻学生们当时的心情:“理智的话我觉得都不会选择创业的,你要是纯理性去分析,怎么选你都不会去创业”。
黄鼎隆说,如果自己在读博士的时候选择去创业可能会被父母打断腿。
现在,他和码特选择创业则是主动把自己置身到了一个充满不确定性风险的境地,这里将会有他们前所未闻的剧变、可能会失败而且失败几率很大、生活将不再轻松平和而会变得墨突不黔。
无论何时,创业都是危险的。
然而,历史上最不朽的失败者王尔德说过,如果一个想法不够危险,它又有什么资格能算是一个想法。
在创业的时候,黄鼎隆和码特甚至都没有获得融资。各取了两人名中的一字,公司叫做码隆。
“当时就不断在想,搜索引擎的下一步是什么。如果搜索的东西还是放在文字文本上的话,那么这个仗基本上已经结束了,但是再往后一个更大的机会是图像,它巨大的宝库,才刚刚拉开一点小小的缝。”早在微软的时候,黄鼎隆就开始预想搜索的下一个机会。
在创业调研的几个月里,他们决定把深度学习技术用在当时已经成熟的图片识别方面,但是,仅仅是“以图识图”这样的功能并不足以吸引用户和市场。
在最初的商业计划书里,他们给码隆的产品取的名字叫 kumo,在日文里,这个词有两个意思,“云”和“蜘蛛”,kumo 依托于云服务,同时,黄鼎隆他们希望这个产品能像蜘蛛一样爬取尽可能多的图片。最终,他们为码隆构思出来的产品商业模式是,通过图片搜索识别来帮助用户做出决策。
kumo 首先是引擎,而引擎的价值就在于把关键字和内容联系起来,kumo 主攻的是图片,那如何向别人证明这个价值呢?黄鼎隆用 Google 的例子做了简单的算数,他把当时 Google 的营收和搜索次数相比,得出来用户在 Google 的每次搜索价值7美分。他在商业计划书里向投资人表明,图片搜索的需求和价值会比普通的文本搜索更大。
当时,他为图片搜索做出了约550亿美元的保守估计,并预测其在随后数年里将增长成为一个千亿美元级别的市场。
在2014年,Google 作价4亿英镑收购了人工智能创业公司 Deepmind,后一年,Facebook 提出了它的深度学习技术 DeepFace 用来自动标签和识别用户照片,其中包含了超过1.2亿个参数。其识别正确率高达97.35%,较 Facebook 之前使用的系统提升了27%。
但是,这些事实和黄鼎隆自己的预测并不足以增加别人相信码隆成功的可能性,除非他们能够证明自己。
码隆在7月份注册,此时距离科技部主办的第三届中国创新创业大赛报名截止时间只剩下一周不到的时间,黄鼎隆、码特以及另一位前微软的设计师组成的小团队抱着一半测试自己一半向别人证明的心态踩着截止日期报名参赛。
参赛团队报名提交资料的时候并不需要提交实物,于是,刚刚创业不久还只有一个概念的黄鼎隆他们趁势填上了“视觉决策引擎”。从网络初赛、地区赛、行业半决赛再到最后的全国总决赛,在每轮比赛之间大约有2到3周时间的间隔,而这就也成了黄鼎隆他们在赢得上轮比赛获得评委意见之后不多的用来进一步修正自己的产品的时间。
大赛持续了约2个月,和其他已经有了成型产品的参赛者不同,他们的产品在每一轮比赛中都不断地改动优化,最终,他们获得了此次大赛团队组全国第二名,之后一个多星期,他们又获得了深圳创业创新大赛的冠军,不到两个月后,码隆在2015年入选了微软创投加速器。
此时,深度学习已经成为一个洛阳纸贵的技术概念与实践。
深度学习的出现推动了整个 AI 和机器学习的大发展 来源:Nvidia
深度学习究竟如何帮助人们进行“视觉决策”呢?
不妨让我们从过去几十年里最风行的人工智能神经网络说起。它是在我们对人脑的认识理解基础上结合人工智能产生的交叉学科,在大脑里,神经在一定物理距离内可以和其他任意神经连接。但是,可惜的是,人工智能神经网络却受限于自身各个分隔的神经层、连接和数据传播方向。
一个对象输入人工智能神经网络的第一层,然后再由第二层的神经处理自己的任务,在进入到下一层,重复这样的程序直至最后一层,最终得出输出结果。每一个神经都获得一个和它执行任务相关的正误情况的权重,最后的输出结果便由这些权重决定。然而,问题在于,即使最基本的神经网络也有着惊人的计算需求,同时,它还需要人工来提取样本的特征,这些极大阻碍了它的实际应用。
深度学习则从根本上改变了这一情况。
它由多个线性或非线性变换组成大量的任务处理神经层,利用非监督或自监督特征学习算法和层次特征提取等算法来实现取代手工特征学习提取,从而创造出更好的表达并在大规模没有标签化的数据基础上利用这些表达建立出更好的模型。
词向量(distributed representations)假定观察到的数据是因为各个神经层中的因子互动而产生的,深度学习则进一步假定这些神经层的活动和不同层级的抽象组成之间有着对应关系,数量和大小各异的神经层可以用来提供不同的抽象。
于是,深度学习可以从较低层次开始学习从而习得更高层、更抽象的概念,在最底层利用无监督学习逐层预训练学习特征,将结果作为更高一层的输入,到最上层则改用监督学习进行调整,和贪婪算法结合后,这套方法使得深度学习能够习得抽象概念并选出那些有助于学习的特征。
也就是说,相比以前以人工智能神经网络为代表的浅度学习,深度学习可以更好地自主学习数据和对象特征并持续进化自己的学习能力,大数据的大行其道让深度学习有了前所未有的用武之地,数据量越大,它的精度就越高。而 MapReduce 大规模集群架构的兴起、GPU 的大规模应用和应运而生的优化算法更是极大地缩短了深度学习训练数据需要的时间。
当深度学习风靡整个业界的时候,不同的模型和算法就成为了每个公司的独门武器,黄鼎隆对码隆的技术颇有信心。他们内部首先建立了一个量化的评测体系,在新算法投入使用之前,都会在公司里进行测试打分。
在这之前,码特他们还会先设计一个系统把个人偏好、界面设计喜好等因素排除掉让大家更客观地评分,但是这显然还不够,更有说服力更有决定性的是客户的使用反馈。
现在,码隆面向的是企业用户,而在创业之初,情况却并非如此,那时候,他们将目标锁定在了普通消费者身上。
技术的逻辑
11月的深圳,气温依然高达27℃。码特卷上百叶窗,边呼吸着温热的海风,边吃着刚买来的麦当劳汉堡和薯条充饥。他谈到了 give up,码特告诉我,在工作上有时候需要不过分坚持甚至放弃自己的想法来让更多人说出他们的意见,只有这样才可能维持一个良好的工作氛围促进整个集体的成长。
码隆一开始推出的产品叫 StyleAI,他们当时决定要从时尚作为突破口来应用深度学习帮助用户穿衣打扮。尽管推出了App 和微信微信公众号,但是,在用户和市场看来,这始终只是个“人工智能+时尚”噱头下的玩具而已,而习惯了大公司充足资源从来有过一线经验的黄鼎隆和码特也渐渐回过味来,他们最终意识到,深度学习在2C 领域很难有大作为。
最大的障碍在于,时尚涉及到包括布料、生产加工、设计等太多的产业上下游链条,而一个创新小公司根本无力同时应付从产业生态链到消费者的商业闭环,他们既没有资源也不具备精力耐心去自己补完这个链条。在消费者端兜兜转转不少时间之后,他们忽然意识到自己其实应该把重心放到上游环节上去。
“这是一个新的领域,就意味着你要解决很多未知的问题,甚至有一些是没答案的,所以你就把这些问题装在脑袋里面。吃饭的时候也想,洗澡的时候也想,上厕所的时候想,睡觉的时候想,没日没夜地想,然后一下子灵光乍现,有个点子!解决了!”回忆起过往苦思冥想公司方向的时光,黄鼎隆依然兴奋。
在这个技术创新起决定性作用的市场里,要想让深度学习技术发挥最大的作用,要想让码隆商业上成功的可能性尽可能增多的话,两个从微软出来的人想出来的主意是把公司的技术开放出来,让更多的企业接触使用。
让深度学习帮助这些企业解决它们以往遇到现在需要解决优化的问题,反过来,同时又让这些深度参与到时尚产业各个链条的既有资源又有能力的参与者来推广促进深度学习技术。
于是,他们转向了2B 市场,推出了平台 ProductAI,他们对这个产品的介绍是 AI for your product。
优料宝是他们的典型用户。
这个布料交易平台同时面向买家和卖家,一个典型的应用场景是,买家对某块面料产生兴趣的话,就会用以图搜图功能在优料宝上搜索相似相同布料的卖家。这样的用户需求一直存在,但问题是对于这些传统企业而言,要在自己的平台搭建一个涉及到人工智能甚至深度学习技术的图像搜索引擎并不是他们擅长的,更不要说后续的维护、更新和扩容上的成本投入。
另一方面,这些相关产业链上的企业之前积累了大量的图片和用户行为数据,但为这些数据标签化乃至进行数据挖掘对这些企业而言几乎是闻所未闻的天方夜谭,于是,这些数据几乎没有发挥任何作用。
ProductAI 首先在全网抓取各种图片,然后将其中没有标签的部分外包给分散在全国的数百人的团队进行标记,由此形成数据库和学习模型。
每个企业客户都有着各自不同的用户群体和需求,在这些个性化差异的前提下,对数据模型进行训练,最终将算法以 API 的形式接入客户自助搭建的平台上来实现以图搜图和图像鉴别等功能。ProductAI 本身是免费,它的主要收入来自客户对 API 的调用。
黄鼎隆的技术观以及由此产生的商业观在人看来如此激进:他认定智能手机和 App 的浪潮正在慢慢消退。这不仅是他放弃继续开发2C 端上 App 的部分原因,也成为他成为中国第五位购买 HoloLens 消费者的动因,他相信 AR/VR 和可穿戴设备在不久的将来会掀起新的浪潮。
不过,真正吊诡的地方是,黄鼎隆和码特创业以时尚为起点,而他们的终点则是革掉传统时尚的命。
“现在就是有人定义了时尚,所以大家才会流行,就是因为现在各种东西太混沌了,导致各种东西信息不对称,信息不对称过的情况下就是有几个人就能说了算。我们现在要做的事情的根本就是要消除知识的信息不对称。”大部分可以见到的宣传照片上,黄鼎隆都穿着风格和时尚绝缘的衣服,他和码特对时尚都没有什么具体的概念。
10年前,在电影《穿普拉达的女魔头》(The Devil Wears Prada)里,梅丽尔·斯特里普(Meryl Streep)扮演的时尚杂志主编米兰达对新人的时尚观弃如敝履。这是黄鼎隆最喜欢最常用来说的场景,他告诉我,码隆要做的就是抢占时尚的话语权。
按照黄鼎隆的想法, 只要有足够多的纽约东京米兰等城市的街拍图片,那么就能从中分析出这些城市最流行的颜色究竟是什么甚至可以将流行趋势用量化的方式计算出来,“比如粉色从上一周的21%提升到这一周的38%,这就是一个趋势嘛”,他这样比方。
于是,时尚就不再是设计师、评论家和时尚杂志编辑们的特权,而仅仅成为深度学习技术下一件枯燥理性没有任何神秘和审美的机械工作而已,或者说,每一个普通人都能直观地了解到最流行的颜色和时尚。
即使不能站在时尚潮流的风口浪尖,就算不能一蹴而就地去引领主导时尚,用黄鼎隆的原话来说,中国至少不会完全仅仅充当时尚的跟风者,并且还有机会“从世界的服装工厂变成一个时尚策源地”,这是中国纺织信息中心的目标,这也是当局看重了码隆技术的可能性而选择与之合作的最主要原因。
于黄鼎隆个人而言,比起审美话语权和国家宏大叙事这些因素,他所谓的“一个效率的提升和人力的解放”或许才是其有了反动时尚念头的真实动机。
别忘了黄鼎隆他们最初“视觉决策搜索”的设想以及他们对这块市场的宏愿。
图片连接的不止是图片而已,它其实和文本搜索其实并没有太大差异,我们毋宁说,搜索就是互联网上最基础、应用最广泛的 HUB,它连接的是用户的需求和内容。内容不止局限于文本、图片等,它应该而且在本质上涵盖更丰富更多样性的内容,是视频、音乐、游戏,还可以是商品、服务。
搜索的价值和意义与其说满足用户需求寻找到内容,不如说是跨越需求和内容两端的信息不透明鸿沟,不如说是打破整个商业价值链条上的冗余累赘,这是技术演进的必然目的和结果,也是互联网经济市场规律的必然方向,这也自然而然地成了搜索引擎进化的最主要趋势。
这是搜索的一个动态演化趋势,它不仅仅只是帮助用户寻找答案的工具,而是提供最符合用户需求的内容,深度学习的意义也正在于此,经过漫长的自我演化和学习,它可能做到“如何知道我们所知”,由此来帮助用户做出最理性的决策。
ProductAI 面向的是企业用户,但实际上,它最终服务的还是普通消费者。它连接的不止是图片和图片、图片和布料,它还可以通过商品包装、视频、AR 等将更多的内容连接起来。连接和内容越多,应用场景越多,用户和数据也就越多,商业上的可能性也就越多,这些反过来也会推动深度学习算法更加智能化。
从某种意义上来说,深度学习不止是视觉引擎的技术基石,它更像是一个摈除了所有非理性因素的数字化大脑,假用户自认为的选择权做出基于数据的决策。在以往,搜索是一个过程和手段,而在可以预见到的将来甚至现在,搜索本身就是目的和结果,于是,它也就具备了商业上闭环的可能性。
技术,赋予了商业前所未有的可能性。
这种可能性在过去5年里在黄鼎隆和码特的手上逐渐变得触手可及。
一个中国人,一个美国人,他们有着太多不同的地方,但,在仅有的几个相同点上,他们却有着惊人的相似。他们对一些事情极为在意,对另一些事情却无动于衷。
码特现在还用着那部已经氧化掉色的 iPhone 5,父母曾经坚决反对他和异教外国人的感情关系,在八九年的时间里,他在这个问题上始终未曾妥协,最后终于迎来皆大欢喜的结局。
在微软亚洲研究院的融资发布会上,黄鼎隆已经尽了全力让自己表现得对这样热闹的场景已然熟稔,但,在聚光灯外的角落里,他不时显出些张皇失措和些许的落寞。
之后,已经对大数字习以为常的记者问道为什么6200万元的融资那么低时,之前就和码特约定不在融资问题上作假的黄鼎隆无奈地苦笑了下,只能生硬地摆出耐心平和的架势回答这样的问题——只有他和玛特知道,这笔数字其实并不比那些创业公司的真实融资额低。
在创业这件事上,两个人并不熟练。
他们改变什么了吗?他们自己并不确定,这个世界也不确定,唯一可以确定的只有一样,黄鼎隆说创业这两年来因为缺乏锻炼和加班吃垃圾食品太多的缘故,他们都不约而同地变胖了。
在十一月某个夜里的十一点,深圳燥热的空气渐渐凉却下去,码特看了看纸袋中剩余不多的薯条,喝完最后一口可乐,抿了抿嘴,继续回到他的座位上和两三个同事熬夜。这对他来说已经生活的常态,但他享受着。此时,在地球另一端,黄鼎隆依然独自一人身在异国参加 APEC 会议,在那里,他寻找着新的商业合作伙伴。
和无数普通的夜一样,这是他们普通的一夜。
和无数创业的故事一样,他们的这个故事也才刚刚开始。文章来源: 钛媒体
版权所有 中国互联网新闻中心 电话: 86-10- 京ICP证 040089号
网络传播视听节目许可证号:0105123 京公网安备号 京网文[5号}

我要回帖

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信