把2.5万用户体验工程师月薪变成机器学习专家是怎样的体验

谷歌转型:把2.5万工程师变成机器学习专家是怎样的体验?_科技传媒网
谷歌转型:把2.5万工程师变成机器学习专家是怎样的体验?
导语:《连线》杂志前资深记者,美国在线内容平台Medium主编史蒂芬?列维(StevenLevy)近日在美国科技网站BackChannel上,撰文介绍了谷歌将机器学习融入自身产品
  导语:《连线》杂志前资深记者,美国在线内容平台Medium主编史蒂芬?列维(Steven Levy)近日在美国科技网站BackChannel上,撰文介绍了将融入自身产品的历程和方法。文章称,由于看好机器学习技术的未来,谷歌为内部员工和外部人员提供各种各样的培训,希望加速这种技术的普及速度。而公司的目标,是将内部2.5万名工程师全部转变成为机器学习领域的专家。
  以下为文章全文:
  卡森?霍尔盖特(Carson Holgate)正在接受忍者培训。
  但这里的忍者指的并不是武术――她已经有不错的武术功底。26岁的霍尔盖特是空手道黑带二段。现在的培训重点是算法。霍尔盖特几周前加入这个项目,她希望借此掌握机器学习方面的技能,这是一种比身体对抗更加强大的技术。作为谷歌Android部门的一名工程师,霍尔盖特是参加今年忍者学习项目的18名程序员之一。该项目从各个团队招收有才华的程序员,向他们传授技术,以便提升其产品的智能性――尽管这有可能让他们开发的软件更加难以理解。
正在接受机器学习“忍者训练”的谷歌工程师卡森?霍尔盖特。
  “该项目的标语是:你想成为一名机器学习忍者吗?”谷歌内部机器学习产品经理克里斯汀?罗伯森(Christine Robson)说,她负责管理这个项目,“所以我们从谷歌各个部门招收人员,用6个月的时间为他们提供机器学习培训。让他们跟着导师学习6个月机器学习,并进行一些项目。他们可以由此入手,从而掌握大量知识。”
  霍尔盖特4年前拿着计算机科学和数学学位来到谷歌,对她来说,这是一次掌握最热门软件技术的机会:使用学习算法和海量数据,教给软件完成任务的方法。多年以来,机器学习都被视作一个高度专业的领域,仅有少数精英人群能够掌握这种技术。但这个时代已经结束了,最近的结果表明:由模拟生物大脑工作方式的“神经网络”驱动的机器学习技术是将计算机与人类能力融为一体的正确方式。
  在某些情况下,甚至可以借此打造出超人。谷歌希望在内部扩大这类精英人群的范围,甚至希望让机器学习成为一种常规技术。对霍尔盖特这样的工程师而言,忍者项目是一次实现自我飞跃的绝佳机会,可以向精英中的精英学习知识。“这些人都在开发不可思议的模型,而且都有博士学位。”她言语间流露出无法掩饰的敬畏之情。由于该项目会将所有学员都称作“忍者”,所以她开始有些难以接受,但最终还是克服了心理障碍。“我起初很难接受,但还是学着接受了。”她说。
  考虑到谷歌员工人数众多――其总部的6万员工中约有半数是工程师――所以这个项目的规模其实很小。不过,这个项目却标志着谷歌内部的认识开始发生变化。尽管谷歌从很早以前就开始使用机器学习技术,而且一直在这一领域积极聘请各类专家,但该公司直到2016年才开始真正痴迷于机器学习技术。谷歌CEO桑达尔?皮查伊(Sundar Pichai)在去年末的财报电话会议上阐述了该公司的想法:“机器学习是一项有颠覆性的核心技术,我们可以借此重新思考我们做一切事情的方式。我们还会尽力将它应用于所有的产品中,包括搜索、广告、YouTube或Play。我们还处于发展初期,但你会看到我们以系统化的方式将机器学习应用到所有这些领域之中。”
  很显然,如果谷歌要在旗下的所有产品中融入机器学习技术,就需要精通这项技术的工程师。正如机器学习畅销书《算法大师》(The Master Algorithm)的作者佩德罗?多明戈斯(Pedro Domingos)所说:“机器学习是阳光下的一项新生事物,这是一项可以自己发展的技术。” 编写这样的系统需要找到合适的数据,选择合适的算法,然后为成功营造合适的环境。之后就要给予系统足够的信任(这对程序员来说是一件很难做到的事情),让它们自己完成工作。
  “通过这种方式思考解决方案的人越多,我们就会变得越好。”谷歌机器算法项目负责人杰夫?迪恩(Jeff Dean)说。他估计,谷歌目前约有2.5万工程师,但只有几千人精通机器学习,占比大约为10%。他希望最终的比例能接近100%。“如果能让所有工程师都在一定程度上掌握机器学习技术,那就太好了。”他说。
  他认为这个愿望能否实现呢?
  “我们会尽力尝试。”他说。
  神奇技术
  多年以来,约翰?迦南德里(John Gianandrea)一直都是谷歌机器学习的重要推动者,而作为该公司的最新动向,他最近成为了搜索业务主管。但当他2010年加盟该公司时(他是在谷歌收购MetaWeb时随之一同加入谷歌的,那家公司的庞大数据库已经以知识图谱的形式整合到谷歌搜索中),他在机器学习和神经网络方面并没有太多经验。
谷歌最权威的计算机科学专家杰夫?迪恩正在制作机器学习方面的工具,领导团队进行相关工作。
  但在2011年左右,来自神经信息处理系统(以下简称“NIPS”)大会的一条消息令他感到震惊。似乎每年都会有团队在NIPS上宣布机器学习的最新进展,涉及翻译、语音识别和视觉系统等诸多领域。一些令人惊讶的事情正在悄然发生。“当我第一次关注时,NIPS的内容十分晦涩难懂。”他说,“但过去3年间,这一领域在学术界和产业界都得到了蓬勃发展,去年的参会人数大约有6000人。”
  随着神经网络算法的进步,加上摩尔定律带来的强大计算能力,以及谷歌和Facebook等挖掘出来的庞大用户数据,机器学习的新时代就此拉开帷幕。迦南德里也加入其中,他认为这将成为谷歌的核心。与他志同道合的还包括迪恩,他是“谷歌大脑”(Google Brain)的联合创始人,这个神经网络项目来自谷歌旗下的研究部门Google X(现已更名为X)。
  虽然迦南德里否认“机器会杀死我们”这样的预言,但他的确认为,机器学习系统将成为一项革命性的技术,从医疗诊断到无人驾驶汽车,各行各业都将利用这种技术。虽然机器学习不会取代人类,但它却会改变人类。
  迦南德里以Google Photos为例进行了解释。这款产品的标志性功能是能够在图片中识别出用户指定的物品,这令人感觉颇为神秘,甚至有些不安。他给我展示一些边境牧羊犬的图片。“当有人第一次看到这个场景时,他们会以为发生了与众不同的事情,因为电脑不仅为你计算出偏好,甚至还推荐你观看一段视频。”迦南德里说,“它可以理解画面中的内容。” 他解释道,通过专门的学习,电脑便可“知道”边境牧羊犬的样子,而且可以识别出不同年龄和毛长的边境牧羊犬。
  人类当然可以做到这一点。但没有一个人能够从数百万张图片中筛选出来这些照片,同时还能识别出不同的犬种。但机器学习系统就可以做到。如果它学会了一个犬种,便可使用相同的技术识别出另外9999个犬种。“这才是真正新颖的地方。”迦南德里说,“通过这样一个狭小的领域,你可以看到某些人所谓的超人究竟能达到什么效果。”
  逐步探索
  需要强调的是,谷歌早已了解机器学习的概念,该公司的创始人始终坚信人工智能的前景。机器学习已经整合进谷歌的很多产品,尽管未必采用了最近大热的神经网络技术(早期的机器学习往往依赖更加直接的统计方法)。
  事实上,谷歌10年前就开始通过内部培训,向该公司的工程师传授积极学习技术。2005年初,当时负责谷歌搜索业务的彼得?诺维格(Peter Norvig)向科学家大卫?帕布洛?科恩(David Pablo Cohn)提出建议,希望了解谷歌能否采用卡内基梅隆大学组织的相关课程。科恩表示,只有谷歌自己才能教授这种内部课程,因为谷歌的运营规模与其他公司都大不相同(可能只有美国国防部是个例外)。所以他在谷歌总部的43号楼(那里当时是搜索团队的总部所在地)订了一个大房间,每周三在那里开设两小时的课程。就连杰夫?迪恩也参加过几次课程。“那是全世界最好的课程。”科恩说,“作为工程师,他们都比我优秀得多!”
  那个课程广受欢迎,甚至变得一座难求。就连班加罗尔办事处的员工都会特意等到午夜过后接入远程教学系统。几年后,一些谷歌员工把授课演讲内容制作成了短片,结束了直播授课的历史。科恩认为,当时的那个课程算得上是MOOC(大规模开放在线课程)的先驱。接下来几年,谷歌还针对机器学习培训展开了其他的尝试,但组织上并不严密,内容上也并不连贯。科恩2013年离开谷歌后,机器学习才突然间成为了至关重要的领域。
  在2012年之前,这种认识尚未形成气候,直到迦南德里决定“吸收大量从事这项工作的人”,并将他们安排到同一栋办公楼之后。脱胎于该公司的X部门的谷歌大脑也加入进来。“我们吸收了很多团队,将他们安排到同一栋办公楼内,还提供了全新的咖啡机。”他说,“有些人之前只是一直在从事他们所谓的感知计算――声音和语音识别等技术――现在都可以与那些从事语言工作的人展开沟通。”
  逐渐地,这些工程师们开发的机器学习技术开始出现在谷歌的热门产品中。由于视觉和语音识别以及翻译是机器学习的主要领域,也就难怪这项技术成为谷歌语音搜索、翻译和Photos等服务的重要组成部分。迪恩表示,随着他和他的团队对机器学习的理解逐步深入,他们开始以更具野心的方式探索这项技术。“我们之前或许会在系统的组件中使用机器学习技术,”他说,“现在则会使用这项技术替代整套系统,而不是为每一个组件设计更好的机器学习模式。”迪恩表示,如果现在让他重新编写谷歌的基础架构,其中的很多内容都不再是预先编好的代码,而是后期学习而来的。迪恩更为人所知的身份是Bit Table和MapReduce等革命性系统的联合创造者。
谷歌大脑联合创始人格雷格?考拉多正在和多个团队协作,将人工智能转化成为自己的软件。
  机器学习还能够实现一些原本无法想象的产品功能。2015年11月推出的Gmail自动回复便是其中之。这项功能源自谷歌大脑项目联合创始人格雷格?考拉多(Greg Corrado)与Gmail工程师巴林特?米克洛斯(Bálint Miklós)之间的一次对话。考拉多之前曾经与Gmail团队合作使用机器学习算法探测垃圾信息,归类邮件内容,但米克洛斯提出了一些更激进的建议。能否利用机器学习技术自动生成回复邮件,省去移动用户在狭小的键盘上输入文字的繁琐过程。“我大吃一惊,因为这个建议太疯狂了。”考拉多说,“我后来想,借助我们一直以来都在研究的预测性神经网络技术,或许的确可能实现这种功能。一旦我们意识到这是一个机会的时候,就必须去尝试一下。”
  为了提高成功概率,谷歌让考拉多和他的团队与Gmail部门展开了密切合作。这种派遣机器学习专家进驻产品部门的做法如今已经越来越普遍。“机器学习既是科学又是艺术。”考拉多说,“这就像烹饪――没错,烹饪过程发生了化学反应,但对于真正对烹饪感兴趣的人来说,必须要学习如何搭配手中的食材。”
  传统的人工智能技术在理解语言时,需要将语音规则嵌入系统,但在这个项目中,系统可以利用现代化的机器学习技术,借助足够的数据像儿童一样自学。“我的语言能力并不是从语言学家那里学来的,而是通过听别人说话学来的。”考拉多说。但真正令智能回复变得切实可行的,是它的成功很容易定义――他们的目的不是创造一个妖艳的虚拟斯嘉丽?约翰逊(Scarlett Johansson),而是希望它能回复真正的电子邮件。“这项服务的成功标志是,系统可以生成一个对用户有用的备选回复,以便用户能够真正使用这些内容。”他说。因此,只需要知道用户是否点击了系统推荐的回复内容,便可对其进行训练。
  但当该团队开始测试智能回复时,用户却注意到了一些怪异的事情:它经常会推荐一些不合时宜的暧昧语言。“其中一个比较失败的情况是:只要系统感觉困惑,它就会说‘我爱你’。”考拉多说,“这并不是软件漏洞,问题出在我们让它做的事情上。” 这个程序已经了解了人类行为的一些微妙之处:“如果你感到担忧,那么说一句‘我爱你’是一种很好的防御策略。” 考拉多帮助该团队压制了系统的热情。
  去年11月发布的智能回复取得了巨大成功――Gmail Inbox应用的用户现在可以直接从系统提供的三条备选内容中选择一条进行回复。由于系统提供的回复内容非常切题,用户经常感到惊讶。在通过该应用发送的回复信息中,有十分之一都是由机器学习系统生成的。“这个项目能够成功还是令我感到有些惊讶。”考拉多笑着说。
  类似于智能推荐这样的例子还有很多,它们都充分说明机器学习系统在谷歌业务中发挥的作用。或许最终的拐点是当机器学习成为搜索的一个必不可少的组成部分时――作为谷歌的旗舰产品,搜索几乎为该公司贡献了所有营收。多年以来,由于搜索引擎对谷歌过于重要,所以始终没有融入机器学习算法。“由于搜索在公司内部占据的份额巨大,高级管理者深度参与其中,所以很多人都怀疑我们无法真正取得进展。”迦南德里说。
  其中部分阻力源自文化因素――必须要让那些有极强控制欲的程序员适应带有禅宗韵味的机器学习模式。长期掌管谷歌搜索业务的阿密特?辛格(Amit Singhal)曾是传奇计算机科学家杰拉德?萨尔顿(Gerald Salton)的助手。萨尔顿在文档检索方面的开创性工作启迪辛格帮助谢尔盖?布林(Sergey Brin)和拉里?佩奇(Larry Page)把研究生时期编写的代码,扩展成了可以适应当今网络时代的程序。(这使得他成为了“检索派”的一员。)
  他从20世纪的方法中梳理出了令人惊讶的结果,但如果要将机器学习系统整合到关系谷歌命脉的复杂系统中,他却持怀疑态度。“进入谷歌的前两年,我负责搜索质量,试图用机器学习来改进排名。”大卫?帕布洛?科恩说,“结果发现阿米特的团队是全世界最优秀的,我们把阿里特脑海中的所有内容都变成了硬编码,以此实现进步。已经找不到比他更好的方法了。”
  到2014年初,谷歌的机器学习大师们认为需要改变现状。“我们与排名团队展开了一系列讨论。”迪恩说,“我们认为至少应该尝试一下,看看能不能有一些收获。” 他的团队所设想的那个实验最终成为了搜索的核心:文件排名与搜索请求的匹配程度有多高(需要以用户的点击为衡量标准)。“我们跟他们说,可以用神经网络计算额外的分数,看看到底有没有用。”
  答案是:确实有用。这套系统如今已经成为谷歌搜索的一部分,被称作RankBrain。它于2015年4月上线。谷歌还是像以往一样对如何改进搜索讳莫如深(究竟是与长尾理论有关?还是更好地解读了模糊不清的搜索请求?),但迪恩表示,RankBrain“融入到每一个搜索请求中”,虽然未必会影响所有的排名,但的确对很多搜索请求的排名都产生了影响。另外,实际的影响幅度也很大。在谷歌计算排名时所使用的数百个信号中(这些信号可能包括用户所在的地理位置,或者页面标题是否与搜索请求匹配),RankBrain现在的用途排名第三。
  “我们成功利用机器学习改进了搜索结果,这对公司来说意义重大。”迦南德里说,“这引发了很多人的关注。” 华盛顿大学教授佩德罗?多明戈斯则给出了另外一种说法:“检索派与机器学习派始终都存在斗争。机器学习最终赢得了胜利。”
  内部培训
  谷歌面临的新挑战是如何让所有工程师都熟悉机器学习。还有很多公司也都秉承着相同的目标,其中最引人关注的当属Facebook,该公司与谷歌一样着迷于机器学习和深度学习。这一领域的毕业生变得非常抢手,而谷歌正在努力保持对毕业生的吸引力:学术圈多年以来都流传着一个玩笑:即使不需要顶尖学生,谷歌也会招聘他们,避免人才被竞争对手抢走。(这个玩笑的错误之处在于,谷歌的确需要这些人才。)“我的学生无一例外都得到了谷歌的录用通知。”多明戈斯说。目前看来,竞争的激烈程度有增无减:就在上周,谷歌宣布将在苏黎世开设一个新的机器学习实验室,有很多工作岗位有待填补。
  但由于学术项目尚未培养大量机器学习专家,为员工提供在职培训面成为了必要措施。但这却并非易事,尤其是对于谷歌这样的公司而言。这里有很多世界顶尖工程师,他们一生都在研究传统的编程方式。机器学习却需要截然不同的思维模式,精通编码的工程师之所以能有如今的成就,往往是因为他们希望完全控制一套编码系统。机器学习还需要掌握一些数学和统计学知识,但是很多程序员却对此不屑一顾的,即便是那些能够写出超长代码的超级黑客也不例外。
克里斯汀?罗伯森的职责是在机器学习方面孵化谷歌内外的人员。
  这还需要一定程度的耐心。“机器学习模型不是静态代码――你需要不断为其提供数据。”罗伯森说,“我们一直在不停地更新模型,而且还要不断学习,增加更多数据,调整预测方式。它就像是一个有生命的东西,这是一种截然不同的开发模式。”
  “这是一个使用不同的算法进行实验的学科,需要挑选那些真正适合使用场景的训练数据。”迦南德里说。尽管他也是新的搜索业务主管,但却仍然把在谷歌内部传播机器学习理念作为自己工作的一部分。“计算机科学那一部分不会消失,但需要更加关注数学和统计学,而对数十万行代码的关注度则需要相应地降低。”
  至于谷歌所担心的障碍,完全可以通过明智的在职培训来解决。“归根结底,这些模型中使用的数学原理并不那么复杂。”迪恩说,“谷歌聘用的多数软件工程师都可以掌握。”
  为了进一步帮助不断扩容的机器学习专家团队,谷歌开发了一系列强大的工具,帮助他们选择合适的算法训练模型,加快培训和提炼过程。其中最强大的是TensorFlow,它可以加速神经网络的构建过程。TensorFlow源自谷歌大脑项目,由迪恩和他的同事拉加特?芒格(Rajat Monga)共同发明。它能把构建系统过程中涉及的晦涩难懂的细节变成标准化的内容――尤其是在谷歌2015年11月开始将其开放给公众后,这种做法的效果更加得以显现。
  尽管谷歌煞费苦心地将这种行为描述为一种无私的举动,但该公司也承认,如果新一代程序员都能熟悉该公司内部的机器学习工具,那对谷歌未来的招聘活动将会起到莫大的帮助。(质疑者甚至指出,谷歌的TensorFlow开源项目是为了追赶Facebook,后者已经在2015年6月公布了早期机器学习系统的深度学习模块Torch。)不过,TensorFlow的功能以及谷歌的开源模式很快受到了程序员的欢迎。迦南德里表示,当谷歌首次提供TensorFlow课程时,共有7.5万人报名参加。
  但谷歌仍为自己的程序员保留了很多好东西。该公司在内部拥有一套更加优秀的机器学习工具――Tensor Processing Unit(以下简称“TPU”)。他们虽然使用这项创新已经多年时间,但直到最近才对外宣布。这是一种针对机器学习程序优化的芯片,就像GPU是专门针对图形处理优化的芯片一样。该公司的庞大数据中心里使用了数以千计的TPU(具体有多少恐怕只有上帝和佩奇才知道)。通过赋予神经网络这种超级计算能力,TPU为谷歌带来了巨大优势。“如果没有它,我们就无法实现RankBrain。”迪恩说。
  但由于谷歌最需要的还是设计还提炼这些系统的人才,他们也在不断尝试各种方式来为工程师提供机器学习方面的培训。这些培训的规模各异,其中也包括为期两天的速成班。谷歌希望这只是初步尝试,工程师随后还会寻找更多资源来深入学习。“已经有数千人报名参加下一次课程。”迪恩说。
  该公司还在通过其他一些措施,为外部人才提供机器学习培训。今年初春,谷歌启动了Brain Residency项目,利用谷歌大脑项目为有潜力的外部人才提供了为期一年的集训。“我们称之为你的深度学习职业生涯的开端。”罗伯森说,他负责协助管理这个项目。尽管这27名来自不同学科的机器学习学员中,可能有一些会留在谷歌,但他表示,该公司的目的是让他们自行发展,利用自己掌握的先进知识在世界各地传播谷歌的机器学习技术。
  前景广阔
  当今时代,机器学习正在逐步走上中心舞台,而谷歌则希望以人工智能公司的身份继续占据主导。所以,从某种意义上讲,卡森?霍尔盖特在忍者项目中学到的知识正是这一计划的核心所在。
  她的课程最初是一个为期4周的新兵训练营,由谷歌最先进的人工智能项目产品负责人提供指导,教给他们如何将机器学习融入项目中。“我们把忍者带进会议室,格雷格?考拉多站在白板前解释LSTM(长短期记忆,一种可以打造强大神经网络的技术)。他做着夸张的手势,讲述这种系统的工作方式、利用何种数学原理、如何应用于实际。”罗伯森说,“在最初的4个星期里,我们几乎用到了我们的所有技术和所有工具,为的是给他们带来切身体会。”
  霍尔盖特从新兵训练营毕业了,她现在正在使用机器学习工具开发一款Android通讯功能,帮助谷歌员工彼此交流。她正在调整超参数,清理输入数据,去掉停止词。但她已经不可能回头,因为她知道人工智能技术就是谷歌的现在和未来,甚至可能是所有技术和所有东西的未来。
  “机器学习时代已经来临,”她说,“前景无比广阔。”(书聿)
本文链接:
(责任编辑:夏喧)
1.科技传媒网遵循行业规范,任何转载的稿件都会明确标注作者和来源;
2.科技传媒网的原创文章,请转载时务必注明文章作者和"来源:",不尊重原创的行为,科技传媒网都将保留追究责任权益;
3.作者投稿可能会经科技传媒网编辑修改或补充。
“新型城镇化与城乡统筹示范区”,是《京津冀协同发展规划纲要》确定的我省四大功能定位之一。近日,省政府正式印发实施《河北省建设新型城镇化与城乡统筹示范区
科技新闻栏目记者日前从中科院国家天文台获悉,由该部门承担建造的中国新一代太阳专用射电望远镜已经于今日成功建成并通过验收
据国外科技媒体报道,苹果的影响力依然巨大,距离下一代iPhone发布只有几个月时间了,此时苹果的光环效应就已经开始逐步显现。安卓厂商为避iPhone锋芒纷纷削减订单。
(),由广东省创新科技传媒服务中心主办,以社会需求为导向,搜集关于科技最新最全的时事动态。>,>谷歌转型:把2.5万工程师变成机器学习专家是怎样的体验?谷歌转型:把2.5万工程师变成机器学习专家是怎样的体验?
7月5日消息,据科技网站BackChannel报道,要想将人工智能融入到你的所有产品中,最好的方式就是重新培训“程序员军团”,这就是谷歌“机器学习优先”战略的初衷。《连线》杂志前资深记者、美国在线内容平台Medium主编史蒂芬·列维(Steven Levy)近日撰文,详细介绍了谷歌研发机器学习技术、并将其融入自身所有产品的过程。
以下为文章摘要:
卡森·霍尔盖特(Carson Holgate)正在受训成为忍者。当然,这里所指的并非日本的武术,尽管霍尔盖特拥有不错的武术功底,现年26岁的她是空手道黑带二段。但是霍尔盖特最新接受的是算法培训,她几周前加入这个项目,希望能够借此掌握比身体对抗更强大的技术,即机器学习。
卡森·霍尔盖特,谷歌工程师,正在接受机器学习“忍者训练”。
作为谷歌安卓部门的工程师,霍尔盖特是参加今年“机器学习忍者”项目的18名程序员之一。在“机器学习忍者”项目中,谷歌通过类似“安德的游戏”方式,从各个团队选拨有才华的程序员,向他们传授人工智能技术,以便提升所有产品的智能化程度,尽管这有可能让他们开发的软件变得更加难以理解。
负责管理“机器学习忍者”项目的谷歌内部机器学习产品经理克里斯汀·罗伯森(Christine Robson)说:“机器学习忍者计划的口号是:你想成为机器学习忍者吗?我们从谷歌各个部门选拨人员,并将他们融入机器学习团队进行6个月的培训。在导师指导下,这些人可以参与部分相关项目。他们可以由此入手,从而掌握大量机器学习方面的知识。”
对于4年前拿着计算机科学和数学学位来到谷歌的霍尔盖特来说,这是掌握软件行业最热门技术的机会:利用学习算法和海量数据,教授软件完成任务的方法。多年来,机器学习都被视为高度专业的领域,仅有少数精英人士才能够掌握它。但这种情况已经发生改变,最近的研究结果表明:由模拟生物大脑工作方式的“神经网络”驱动的机器学习技术是将计算机与人类能力真正融合的正确途径。在某些情况下,甚至可能打造出超人。
谷歌希望扩大内部精英人才的数量,甚至希望让机器学习成为谷歌人人能够掌握的常规技术。对霍尔盖特这样的工程师而言,“机器学习忍者”项目是实现自我飞跃的绝佳机会,可以向精英中的精英学习。霍尔盖特言语间流露出敬畏之情,她说:“这些人正在开发令人觉得不可思议的模型,而且他们都有博士学位。”可是由于该项目将所有学员都称作“忍者”,所以她开始有些难以接受,但她最终克服了障碍。
鉴于谷歌庞大的员工数量,其总部中的6万名员工约有半数是工程师,所以“机器学习忍者”项目实际上规模很小。但是这个项目却象征着谷歌的认知在发生改变。尽管机器学习很早以前就是谷歌研发的重点技术,谷歌也始终在积极招募这个领域的专家,但直到2016年,谷歌才真正开始痴迷于机器学习。
雄心勃勃 打造超人
在2015年末的财报会议上,谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)阐述了该公司的机器学习战略。他说:“机器学习是颠覆性的核心技术,可以让我们反思做任何事情的方式。我们希望将它应用于所有的产品中,包括搜索、广告、YouTube或Play。我们目前还处于发展初期,但你会看到我们以系统化的方式将机器学习应用到这些领域中。”
显然,如果谷歌要在旗下的所有产品中应用机器学习技术,就需要精通这项技术的大量工程师,而机器学习技术与传统编码截然不同。正如机器学习畅销书《算法大师》(The Master Algorithm)的作者佩德罗·多明戈斯(Pedro Domingos)所说:“机器学习是阳光下的新生事物,它是可自主发展的技术。” 编写这样的系统需要找到合适的数据、选择合适的算法,并为确保成功营造合适的条件。最后,你要给予系统足够的信任,尽管这对程序员来说很难。
谷歌机器算法项目负责人杰夫·迪恩(Jeff Dean)说:“越多的人通过这种方式思考解决问题的方案,我们就会变得越好。”迪恩估计,谷歌目前约有2.5万名工程师,但只有几千人精通机器学习技术,或许这个比例仅有10%。他希望最终精通机器学习技术的人能接近100%。在被问及这个愿望能否实现时,迪恩称“我们会尽力尝试。”
多年以来,约翰·迦南德里(John Gianandrea)始终都是谷歌机器学习的重要推动者,而作为该公司的风向标,迦南德里最近成为了搜索业务主管。他2010年加盟谷歌时,对机器学习和神经网络并不太了解。但2011年左右,他被神经信息处理系统(NIPS)大会的消息所震惊。在每年的NIPS大会上,都有团队宣布利用机器学习技术取得的最新成果,其所涉及的领域包括翻译、语音识别和视觉系统等。迦南德里说:“许多令人感到惊讶的事情正在发生。当我首次关注NIPS大会时,感觉内容十分晦涩难懂。但在过去3年间,这个领域在学术界和产业界都取得蓬勃发展,去年大约有6000人参加大会。”
杰夫·迪恩,谷歌最权威的计算机科学专家,正在制作机器学习方面的工具,并领导相关团队。
这些神经网络算法在不断改进,再加上摩尔定律带来的强大计算能力,以及谷歌和Facebook等科技公司挖掘出来的庞大用户行为数据,机器学习的新时代由此拉开序幕。迦南德里也加入其中,他认为这项技术将成为谷歌的核心。与他志同道合的人还包括迪恩,他是谷歌秘密研究部门Google X神经网络项目“谷歌大脑”(Google Brain)的联合创始人。
谷歌发力机器学习并非简单地代表编程技术发生了转变,这项技术可能为计算机赋予迄今高不可攀的权力。实际上,这已经属于“深度学习”算法,它是从大脑结构中获取灵感围绕复杂神经网络建立起来的算法。“谷歌大脑”就属于“深度学习”努力,谷歌旗下人工智能公司DeepMind也在加入这个领域。DeepMind研发的AlphaGo击败了人类围棋冠军,打破了人类对智能机器性能的期望,同时也引发了人们对智能机器和杀人机器人的担忧。
尽管迦南德里不相信“机器会杀死我们”这样的预言,但他认为机器学习系统将成为革命性技术,从医疗诊断到无人驾驶汽车,各行各业都将利用这种技术。虽然机器学习不会取代人类,但它却会改变人类。迦南德里以Google Photos为例进行了解释。这款产品的标志性功能是能够在图片中识别出用户指定的物品,这令人感觉颇为神秘,甚至有些不安。通过学习,电脑可“知道”边境牧羊犬的样子,而且可以识别出不同年龄和毛长的边境牧羊犬。
对于人类来说,这可能十分容易,但没人能够从数百万张图片中筛选出来这些照片,同时还能识别出不同的犬种,而机器学习系统就可以做到。如果它了解了一个犬种,便可使用相同的技术识别出另外9999个犬种。迦南德里说:“这才是真正令人感到新奇的地方。在这样狭小的领域,你甚至可以看到机器学习系统具备超人能力。”
自我发掘 逐渐进化
需要强调的是,谷歌早已了解机器学习的概念,该公司的创始人就是强大人工智能的坚定信奉者。机器学习已经被应用到谷歌很多产品中,尽管并非总是采用最近热门的神经网络技术。事实上,谷歌10年前就开始通过内部培训,向公司工程师传授机器学习技术。2005年初,当时负责谷歌搜索业务的彼得·诺维格(Peter Norvig)向研究科学家大卫·帕布洛·科恩(David Pablo Cohn)提议,希望知道谷歌能否采用卡内基-梅隆大学组织的相关课程。
而科恩表示,只有谷歌自己才能教授这种内部课程,因为谷歌的运营规模与其他公司都大不相同。所以他改造了谷歌总部43号楼一个大房间,每周三在那里开设两小时的课程。就连迪恩也参加过几次。科恩说:“那是全世界最好的课程。作为工程师,他们都比我优秀得多!”这门课程非常受欢迎,几乎座无虚席。就连班加罗尔办事处的员工都会特意等到午夜之后,以便接入远程教学系统。
几年后,部分谷歌员工把授课内容制作成了短片,从而结束了直播授课的历史。但科恩认为,这门课程算得上是MOOC(大规模开放在线课程)的先驱。在随后几年,谷歌还针对机器学习培训展开了其他尝试,但这些尝试缺乏条理性和连续性。科恩2013年离开谷歌后,机器学习突然间成为谷歌关注的重点领域。
但在2012年以前,机器学习课程的重要性还未获得充分认识,直到迦南德里决定“吸收大量从事这项工作的人”,并将他们安排到同样的办公楼之后。始于Google X部门的“谷歌大脑”也加入进来。迦南德里说:“我们吸收了很多团队,将他们安排到同一栋办公楼内,还提供了全新的咖啡机。有些人之前只接触过所谓的感知计算,即声音和语音识别等技术,而现在他们可以与那些从事语言研究的人共同探讨。”
越来越多地,这些工程师们开发的机器学习技术开始出现在谷歌的热门产品中。由于视觉、语音识别以及翻译是机器学习的主要领域,因此无需感到惊讶,这项技术成为谷歌语音搜索、翻译和Photos等服务的重要组成部分。更重要的是,机器学习技术将被应用到所有产品中。
迪恩表示,随着他和他的团队对机器学习的理解逐步深入,他们开始以更具野心的方式探索这项技术。他说:“我们之前或许会在系统的组件中使用机器学习技术,现在则会使用这项技术替代整套系统,而非为每个组件设计更好的机器学习模式。”迪恩表示,如果现在让他重新编写谷歌的基础架构,其中的很多内容都不再是预先编好的代码,而是后期学习而来的。
格雷格·考拉多,谷歌大脑项目联合创始人,正在和多个团队协作,将人工智能应用到谷歌产品中。
机器学习还能够将原本无法想象的功能植入到产品中,比如2015年11月推出的Gmail自动回复功能。这个功能源自“谷歌大脑”项目联合创始人格雷格·考拉多(Greg Corrado)与Gmail工程师巴林特·米克洛斯(Bálint Miklós)之间的对话。考拉多之前曾经与Gmail团队合作使用机器学习算法探测垃圾信息、归类邮件,但米克洛斯提出了更激进的建议:能否利用机器学习技术自动生成回复邮件,省去移动用户在狭小的键盘上输入文字的麻烦。考拉多说:“当初我几乎惊呆了,因为这个建议太疯狂了。但我后来觉得,借助我们始终都在研究的预测性神经网络技术,或许可能实现。而在意识到这是一个机会的时候,我们就必须去尝试。”
为了提高成功概率,谷歌让考拉多及其团队与Gmail部门展开了密切合作,这种派遣机器学习专家进驻产品部门的做法如今已经越来越普遍。考拉多说:“机器学习既是科学又是艺术,这就像烹饪。虽然烹饪过程发生了化学反应,但对于真正对烹饪感兴趣的人来说,必须要学习如何搭配手中的食材。”
传统的人工智能技术在理解语言时,需要将语音规则嵌入系统。但在这个项目中,系统可以利用现代化的机器学习技术,借助足够的数据自主学习,就像儿童自学那样。考拉多说:“我并不是跟着语言学家学会说话的,而是通过听别人说话学来的。”。但真正令智能回复变得切实可行的,是它的成功很容易定义——他们的目的不是创造一个妖艳的虚拟斯嘉丽·约翰逊(Scarlett Johansson,电影《她》中的智能操作系统),而是希望它能回复真正的电子邮件。
考拉多说:“这项服务的成功标志是,用户觉得机器生成的备选回复有用,可被当作自己的真正回复使用。”因此,只需要知道用户是否点击了系统推荐的回复内容,便可对其进行训练。然而,在开始测试智能回复功能时,用户却注意到了怪异事情:系统经常会推荐一些不合时宜的浪漫回应。考拉多说:“其中一种失败模式是:只要系统感觉困惑,它就会说‘我爱你’。这并不是软件漏洞,而是我们的错误引导它如此做。” 这个程序已经了解人类行为的某些微妙之处:“比如你感到担忧是说一句‘我爱你’,其实是一种很好的防御策略。”考拉多帮助该团队压制了系统的热情。
去年11月发布的智能回复功能取得了巨大成功,Gmail Inbox应用的用户现在可以直接从系统提供的三条备选内容中选择一条,轻轻碰触即可进行回复。由于系统提供的回复内容非常切题,用户经常感到不可思议。在通过该应用发送的回复信息中,有1/10都是由机器学习系统生成的。考拉多笑着说:“这个项目能够成功还是令我感到有些惊讶。”
小心求证 困难重重
在谷歌证明机器学习高效性的实例组成的稠密图(dense graph)中,自动回复只是其中的一个数据点。但是当机器学习成为搜索业务的重要组成部分的时候,或许转折点才会最终到来。作为谷歌的旗舰产品,搜索几乎为该公司贡献了所有营收。在某种程度上说,搜索总是基于人工智能系统。但多年以来,由于搜索引擎对谷歌过于重要,所以始终没有融入机器学习算法。迦南德里说:“由于搜索在公司内部占据的份额巨大,高级管理者深度参与其中,所以很多人都怀疑我们无法真正取得进展。”
这部分阻力源自文化因素,因为谷歌强调要让那些有极强控制欲的程序员适应带有禅宗韵味的机器学习模式。长期掌管谷歌搜索业务的阿密特·辛格(Amit Singhal)曾是传奇计算机科学家杰拉德·萨尔顿(Gerald Salton)的助手。萨尔顿在文档检索方面的开创性工作启迪辛格帮助谢尔盖·布林(Sergey Brin)和拉里·佩奇(Larry Page)把研究生时期编写的代码,扩展成了可以适应当今网络时代的程序。
他从20世纪的方法中梳理出令人惊讶的结果,但如果要将机器学习系统整合到关系谷歌命脉的复杂系统中,他却持怀疑态度。大卫·帕布洛·科恩说:“进入谷歌的前两年,我在搜索质量部门工作,并尝试用机器学习来改进排名。结果证明:阿米特的团队是全世界最优秀的,我们把阿里特脑海中的所有内容都变成了硬编码,并不断取得进步,我们已经找不到超越他的方式。”
到2014年初,谷歌的机器学习大师们认为需要改变现状。迪恩说:“我们与排名团队展开了一系列讨论。我们认为至少应该尝试一下,看看是否有所收获。”他的团队所设想的那个实验,最终被证明对搜索至关重要:即文件排名与搜索请求的匹配程度有多高。迪恩称:“我们跟他们说,尝试用神经网络计算额外的分数,看看到底有没有用。”
结果显示这种方法确实有用。这套系统如今已经成为谷歌搜索的一部分,被称作RankBrain。它于2015年4月上线。谷歌继续秉持着以往的风格,对如何改进搜索讳莫如深。但迪恩表示,RankBrain“融入到每一个搜索请求中”,虽然未必会影响所有的排名,但的确对很多搜索请求的排名都产生了影响。另外,该系统效果显著。在谷歌计算排名时所使用的数百个信号中,RankBrain的使用排名第三。
迦南德里说:“我们成功利用机器学习改进了搜索结果,这对公司来说意义重大,也引发了很多人的关注。”华盛顿大学教授佩德罗·多明戈斯则则表示:“检索派与机器学习派始终都存在着分歧,机器学习派最终赢得了胜利。”
谷歌认知转换面临的新挑战是如何让所有工程师都熟悉机器学习——哪怕不擅长机器学习。这也是现在其它许多公司也在追求的目标,其中最引人关注的当属Facebook,该公司与谷歌一样执着于机器学习和深度学习。对这个领域的毕业生的竞争变得更激烈,而谷歌正在努力维持其对毕业生的吸引力。学术圈多年以来都流传着一个玩笑:即使不需要顶尖学生,谷歌也会招聘他们,避免人才被竞争对手抢走。
多明戈斯说:“我的学生无一例外都得到了谷歌的录用通知。”目前看来,竞争的激烈程度有增无减。就在上周,谷歌宣布将在苏黎世开设一个新的机器学习实验室,有很多工作岗位有待填补。但由于学术项目尚未培养大量机器学习专家,所以为员工提供在职培训面成为了必要措施。
但这却并非易事,尤其是对于谷歌这样的公司而言。这里有很多世界顶尖的工程师,他们毕生都在研究传统的编程方式。机器学习却需要截然不同的思维模式,人们之所以能变成编程大师,通常是因为他们实现了对编程系统的完全控制。机器学习还需要掌握一些数学和统计学知识,但是很多程序员却对此不屑一顾,即便是那些能够写出超长代码的超级黑客也不例外。
克里斯汀·罗伯森,职责是在机器学习方面培训谷歌内外的人员。
这也需要相当程度的耐心。罗伯森说:“机器学习模型不是静态代码,你需要不断为其提供数据。我们一直在不停地更新模型,而且还要不断学习,增加更多数据,调整预测方式等。它就像是一个有生命的东西,这是一种截然不同的开发模式。”迦南德里说:“实际上这是一个使用不同算法进行实验的学科,或关于哪个训练数据集在你的使用案例上工作效果最好的学科。”
尽管迦南德里已是搜索业务主管,但他仍然认为在内部传播机器学习技术的福音是他工作的一部分。他说:“计算机科学那部分不会有太大变化,但对数学和统计学的关注会更多,而对编写五十万行代码的关注则会减少。”就谷歌而言,这一障碍可以通过智能再培训克服。迪恩说:“在训练的一天结束时,这些模型中所使用的数学变得不再复杂。对于谷歌雇佣的大部分工程师而言,这都是可以实现的。”
为了进一步帮助日益增长的机器学习专家团队,谷歌开发了一系列强大的工具,在训练算法时选择正确的模型,以加快培训和提炼过程。其中最强大的是TensorFlow,它可以加速神经网络的构建过程。TensorFlow源自谷歌大脑项目,由迪恩和他的同事拉加特·芒格(Rajat Monga)共同发明。它能把构建系统过程中涉及的晦涩难懂的细节变成标准化的内容,特别是在谷歌2015年11月开始将其开放给公众后,这种做法的效果更快得以显现。
前景广阔 应用无限
尽管谷歌煞费苦心地将传播人工智能技术的行为描述为利他主义行为,但它也承认:如果新一代程序员都能熟悉该公司内部的机器学习工具,那对谷歌未来的招聘活动带来莫大好处。尽管如此,TensorFlow的功能以及谷歌的开源模式很快受到了程序员的欢迎。迦南德里表示,当谷歌首次提供TensorFlow课程时,共有7.5万人报名参加。
但谷歌仍为自己的程序员保留了很多好东西。在公司内部,员工拥有无可比拟的机器学习工具——Tensor Processing Unit(张量处理单元)。他们虽然使用这项创新已经很多年,但直到最近才对外宣布。张量处理单元是一种针对机器学习程序优化的芯片,就像GPU是专门针对图形处理优化的芯片一样。该公司的庞大数据中心里使用了数以千计的张量处理单元。通过赋予神经网络以超级计算能力,张量处理单元为谷歌带来了巨大优势。迪恩说:“如果没有它,我们无法推出RankBrain。”
但由于谷歌最需要的还是设计和完善这些系统的人才,就像正在紧锣密鼓地完善其软件训练工具一样,谷歌也在不断尝试各种方式来为工程师提供机器学习方面的培训。这些培训的规模大小不等,包括为期两天的速成班,使用幻灯片和实际操作练习。谷歌希望这只是初步尝试,工程师随后还会寻找更多资源来深入学习。迪恩说:“已经有数千人报名,准备参加下一次课程。”
谷歌还采取其他措施,为外部人才提供机器学习培训。今年初春,谷歌启动了Brain Residency项目,利用谷歌大脑项目为有潜力的外部人才提供了为期一年的集训。罗伯森说:“我们称之为深度学习职业生涯的开端。”这次集训共有27名来自不同学科的机器学习学员,其中可能有些人会留在谷歌。但罗伯森表示,谷歌的目的是让他们自行发展,利用自己掌握的先进知识在世界各地传播谷歌的机器学习技术。
从某种意义上说,机器学习正在逐步走上中心舞台,谷歌希望以人工智能公司的身份继续占据主导地位,而霍尔盖特等人在忍者项目中学到的知识正是这一计划的核心。霍尔盖特的课程最初是为期4周的新兵训练营,由谷歌最先进的人工智能项目产品负责人提供指导,仔细教给他们如何将机器学习融入项目中。
罗伯森说:“我们把忍者带进会议室,考拉多站在白板前解释何为LSTM(长短期记忆,一种可以打造强大神经网络的技术)。他做着夸张的手势,讲述这种系统的工作原理,利用了哪些数学原理,如何应用于产品中。在最初的4个星期里,我们几乎用到了所有技术和所有工具,为的是给他们带来真正的沉浸式体验。”
霍尔盖特成功地通过了新兵训练营的训练,她现在正在使用机器学习工具开发安卓通讯功能,以帮助谷歌员工彼此交流。她正在调整超参数(hyperparameter),整理输入数据,去掉休止符。现在她已经无法停住脚步,因为她知道人工智能技术就是谷歌的现在和未来,甚至可能是所技术和所有事物的未来。她说:“机器学习时代已经来临,前景无比广阔。”
更多公众号:chisheng601驰声科技是中国唯一专注于教育领域的语音技术服务商,语音评测技术不仅能支持中英文的字、词、句、段落的发音评估,还可实现看图说话等开放题型的自动化评分。目前,驰声科技已服务新东方、外研社、沪江英语、一起作业网、读书郎、广东高考等教育企业和机构。最新文章对这篇文章不满意?您可以继续搜索:百度:搜狗:感谢您阅读谷歌转型:把2.5万工程师变成机器学习专家是怎样的体验?,本文由网友投稿产生,如果侵犯了您的相关权益,请联系管理员。}

我要回帖

更多关于 用户体验工程师待遇 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信