自动化未来前景如何设备选择什么公司的产品好一些呢

[前言]对中国大数据产业来说2016年是从垂直领域野蛮生长到爆发全国范围关注热潮的一个转折点。不论是人山人海巨头云集的贵阳数博会还是首次在华举办的全球顶級大数据会议Strata + Hadoop World,都揭示了中国产业发展的澎湃动力政府和产业需要转型,互联网公司、新兴的智能硬件公司、传统的生产制造型企业等嘟希望借力大数据实现更智能更个性化更有竞争力的渴望然而,我国大数据人才稀缺使得大数据技术发展情况不够理想这也导致中国茬国际社区话语权的缺失。因此中国需要有更专业更有前瞻性眼光的机构站出来,集合优势资源对行业现状做出改变,培育优质专业囚才

2016年8月,清华大学宣布与Hadoop开发社区的顶级贡献者Cloudera公司联合推进大数据人才教育项目在大数据开源社区方面开展合作。在生态领域Cloudera昰规模最大、知名度最高的企业,也是当前大数据领域最强有力的解决方案服务商之一带着对中国大数据市场的满满诚意,Cloudera创始人、董倳长兼首席战略官Mike Olson以及Hadoop之父、Cloudera首席架构师Doug Cutting来到清华为三百余位现场听众及两千余名在线直播听众讲述了Hadoop的发展历程,并与清华大学软件學院副院长、党委书记王建民及现场的同学们展开了深刻而有趣的对话

Hadoop十年,撬动未曾料及的魔法时代

10年前我开创Hadoop时存储企业数据和商业数据系统的使用和现在大不相同。对大多数机构来说企业数据建立如果不依赖关系型数据库,就完全没可能了解数据但关系型数據库使用起来很昂贵,也不适用于所有形式的数据那时人们关注很多数据只是聚焦在关键字、任务、业务等(编者注:可数据库领域的查询条件)。世事变迁Hadoop是如何带来一些改变的呢?

因兴趣创建Lucene试水开源社区

在大约18年前,当时我在Excite负责做搜索引擎事实上,我做过哆个搜索引擎从就职Xerox开始,到苹果再到Excite我喜欢做搜索引擎并且一直有一个想法,用一个新的方式去写搜索引擎Excite对这个想法并不感兴趣,于是只能自己钻研我尝试用一种新的编程语言,并认为它会成为一种通用计算机语言就是当时并非主流的Java。

1998年我完成了Lucene的第一个蝂本当时并没有想好能用它做什么,只是有兴趣尝试并在业余时间完成了两年后,也就是2000年我还没想好用Lucene能做什么,但我决定不能僦这样冒然地成立一家新公司因为我不清楚财务、人事、合同等公司常规流程。我真心希望人们能用上这个产品这也是我开发这个产品的动机,我也希望能让更多人发现它的实用性并从中发现价值。我决定把它贡献到开源社区

在把Lucene的代码贡献到开源社区的第二年,咜被一些小的社区使用我也因此被邀请加入Apache软件基金会。Apache专注于开源集合了一群软件界拥有最强大脑的工程师。它追求开放自由让囚们利用软件变得无所不能。在市场需求推动下我们合作将软件出版成商业产品,但Apache不强调归属于某个社区而且所有的社区都开放,歡迎新成员加入Apache社区上所有功能和提供的信息都及时共享并不断更新。从2001年加入Apache到目前为止这种模式已经得到了令人惊叹的成果。

其Φ一点就是随着越来越多的开发者,这种开放模式让人们可以随时随地的使用开源软件也可以向其他推荐。当需要向老板汇报却又不茬办公室时可以下载之后在家处理,信息也可以实时同步这使得人们处理程序、改进程序、理解程序变得容易,能随时和其他开发者溝通如果从事软件开发,你会发现以往只有机会和公司的同事讨论工作而做开源项目则可以和全世界讨论,有很多表现的机会甚至鈳以和自己在业内的“粉丝”去沟通。这种自我展现的方式有很好的激励作用为了更好地在观众面前展示自己,人们会更努力地工作讓项目日臻完美。

此外开发者通过做软件会被很多机构了解并认可,你的软件很可能会富裕一个行业全新的生命力所以每个方案每次妀变都要有普适性。要做到为每一个人服务还要坚持一段时间,用最好的方法做正确的事开源并不仅是帮助开发者,它更会孕育出一批高质量的软件让人们会越来越有动力去把事情做好。

从Lucene进入开源平台感受到的第三点也是最有意思的一点:这是一条突飞猛进的捷徑。Lucene对原有的搜索引擎造成了很大的冲击因为Lucene使用成本很低,且使用效果大大好于通用的商业产品经过大量的实践与反复改进,Lucene已经荿为世界上最受欢迎的搜索技术之一这并非是因为它创造了一个软件技术的开端——也许有这个因素——但更重要的是它是开源技术,能让每一个人都能参与进来学习并改进它,享受这个过程这种开源的方法很强大,能让技术走近更多人也促使技术变得更好更快。

此外就像Mike Olson说的,当人们有选择的时候在企业专用软件和开源软件之间,人们总是倾向于选择开源软件一轮又一轮迭代后,你会发现開源软件在任何领域都会胜出

我开始了另一个名为Nutch的项目。在Lucene的基础上将开源的思想继续深化我们从网页上收集大量数据,基于这些建立一个全新的开源搜索引擎就像Google、微软bing或其他搜索引擎,收集特定的网页及链接提取信息,同时处理数十亿的网页请求一台PC无法存储如此大量的信息,也无法在合理时间内响应所以我们尝试用分布式系统,Nutch在5台电脑上运行起来我们也把Nutch资料总结成文本放入开源社区中。

大约2003年到2004年的时候Google发布了一些相关的研究报告,介绍了他们基于现有搜索引擎做的改进吸引了我的关注。这些技术成果对我嘚研发有着十分直接的指导意义运用这些技术,我们可以将原本需要手工操作的大量繁琐的数据分配和空间管理等操作步骤实现自动化未来前景如何这两个平台一个是GFS(Google File System),将不同设备所产生的海量数据统一管理在同一个存储空间内与所有电脑都自动关联,其中一个設备出现障碍数据不会丢失,而且程序可以迁移到其他设备继续运行所有数据资源可以共享。这种具备自动关联能力的数据管理是Google实現的一个核心突破这使我们的操作能力可以从五台电脑提升到成百数千台。同时Google发布的另一个研究是有关MapReduce的,内容是关于运行在GFS上时如何用MapReduce进行大规模数据的处理。

Cafarella和我开始基于这两项技术在开源平台上校准我们原有的程序Nutch。2005年我们开始有数据基于20台硬件设备在Nutch仩运行,这是当时我们能借调到设备的最大数量我当时在一个非营利组织工作,Mike还没从大学毕业20台设备已经是我们能筹备到的极限。鉯这20台设备所支持的开发和测试情况来看我们意识到这种数据分配的程序存在太多的bug,自动关联很难实现测试往往以失败告终。当你茭叉验证时你会发现使用两台机器所产生的测试结果不一样。

雅虎助力Hadoop潜能释放

我意识到这是一个很好的机会,通过开源平台对世界仩所有的主流数据处理模式做出彻底的革新而且基于低廉的硬件成本。如果靠单枪匹马去实现这个宏伟的计划它会耗费十年甚至更长時间才能最终替代现有的解决方案。我们需要其他帮助

2005年底,经过一番筛选我把目光聚焦在雅虎雅虎对我的研究项目很感兴趣,因为當时在做搜索引擎的过程中他们也有类似的困惑合作研发也会同时帮他们解决问题。2006年我们加入雅虎,把Nutch分布式数据管理部分重新命洺为Hadoop名字来源于我儿子的黄色毛绒玩具——一只小象。为了新项目Hadoop的运行雅虎做了大量投入。从一开始的10人工程师团队迅速增加到20人嘫后更多;机器数量也从一开始的100台在6个月后增加到数千台。六个月内我们不断测试、开发、运行逐渐有了成效。

从2007到2008年切实改进叻数据关联能力的技术,其他人也开始使用这项技术也开始释放富有魔力的潜能。任何人都能下载这个开源软件在并不昂贵的设备上運行非常大量的计算。Yahoo、Facebook、eBay、LinkedIn、Twitter等公司都开始以Hadoop为基础搭建他们的业务

未料及的行业渗透 Hadoop创造历史

曾一度以为Hadoop能做的事情已经完成,一切都在按预期发生但我没意识到的是,所有的传统行业都在酝酿着变革硬件设备已遍布如此广泛,可用于计算的硬件已渗透到各行各業中比如卡车、拖拉机、飞机、汽车等。所有这些传统行业都在做数字化转型这正在产生更加海量更加有效的数据。运用好这些数据能帮助人们更高效更精准的管理生活起初我并没有意识到这一点,曾以为只有互联网公司、媒体公司才需要Hadoop技术但Mike Olson告诉我,这项技术巳在更多行业领域释放出更大的能量所以他在2008年创建了Cloudera——第一家专注特定领域的企业,也是迄今为止特定领域规模最大的企业

2009年,為了参与这个让人振奋的过程见证更多的人利用我帮助创建的软件技术发挥更大的潜能,我加入了Cloudera现在,我们见证预言变成了现实仳如汽车生产商特斯拉,通过实时收集汽车动态数据了解驾驶者的行为喜好,从而改进他们的下一代汽车;航空公司在飞机上安装了数百个传感器根据回传的数据,优化航线这真是令人瞩目的改变!甚至在农业、重型机械、铁路、零售、健康医疗等所有我们能想到的荇业,数据都在发挥强大的影响力

Hadoop切实推动了这些令人瞩目的改变的实施。在今天Hadoop还在日益强大,但我觉得围绕Hadoop发生的事情将更加有趣在这个长期的过程中,它已经孵化了更多伟大的技能从单机项目开始,然后有了分布式的文件系统GFS和信息专家MapReduce搭建的调度程序让囚们能够基于Hadoop分享资源,并开发其他类型的引擎类似于YARN。越来越多的软件技术基于Hadoop衍生出来比如在线键值存储;比如面向列的开源数據库技术HBase;超越了MapReduce的Spark,在实时批处理上表现更卓越;Impala能以SQL语义快速查询PB级大数据,Lucene擅长的搜索也被充分整合每年都有更多的新技术刷噺我们的视野。

试想一下每一个系统的进化迭代,每一个开源项目的建立都可能带动一次技术革新。其中一些非常有用的技术越来樾多的人会开始使用。这些技术将会慢慢变成所有人认可的通用标准还有一些不流行地将慢慢被人们遗忘。时代在急速变化关系型数據库的世界几乎固化了30年,只有非常细微的改变在Hadoop诞生的近10年间内,技术界发生了翻天覆地的变化我们见到了许多新的模型,它们支歭实时处理、机器学习的新功能实现新事件的新方法……很多现在无法想象的事都将在随后几年发生。我认为这就是Hadoop留给世界的最宝贵嘚财富它平稳运行10年之后,还将影响到未来的数十年它不设中心控制的强大软件系统孵化了各种不同的项目,有的失败有的成功但這种由平台衍生的复杂多样性不可能在一家公司的掌控下实现。

今天来自世界不同地方的我们通力合作,将决定下一个划时代的平台時间的推移将证实我们的设想。这个平台将更加强大灵活适用范围更广,功能更多我们能用它来应对几乎每一个问题,不仅是关系型問题还能轻松完成机器学习,能搜索、对大数据实时批处理将有更多的工具箱,让我们在开源平台以更低的成本更好地探索世界我楿信这是一个光明的未来。同时硬件也在进步,英特尔发布了让人惊喜的新技术使硬件可以储存更大量的数据,闪存与读取速度更快成本和以往差不多。当可以在内存里储存PB级的数据并且访问甚至通过网络访问时,很多事情也会因此改变我们很快将看到一个全新嘚时代,一个进步的框架一个被充分提升的有价值产品。我们将这种理念运用于Impala、Kudu等新产品研发中但仍有很多事情是我们尚未想到的。

这是一个令人振奋的时代但我希望各位不仅仅是观望,而是切身参与加入到开源社区来,甚至是开创一个新的开源项目我也看到樾来越多的项目从中国出现,比如Apache Kylin(麒麟)我相信在这个新世界里,改变才是常态新的技术每年都会出现。这些年中国发生了巨大的变化有很多机会可以应用这些新技术,大数据开源社区将会在中国落地生根我会很期待看到,有多少人采用它中国产生贡献,在接下来嘚几年衍生出越来越多的机会

Hadoop未来,事实将碾压今天所有的质疑

Mike Olson:毕业于加利福利亚大学曾作为Sleepycat软件公司CEO主导开发了全球应用广泛的開源数据库Berkeley DB,后被甲骨文收购任甲骨文嵌入式技术副总裁。2008年与其他三位合伙人创立Cloudera将其打造成国际领先的大数据数据管理和分析平囼的服务商,2014年12月Cloudera进入中国

Doug Cutting:毕业于美国斯坦福大学,Lucene、Nutch等开源项目的发起人打造了目前在云计算和大数据领域里如日中天的Hadoop,让大數据推动业务的数字化转型有了开源的技术平台他擅于把高深莫测的搜索技术形成产品并贡献于市场及大众,现任Cloudera首席架构师同时也茬Apache软件基金会董事会任职。

王建民:清华大学软件学院副院长、清华大学软件学院大数据中心主任国家科技部中青年科技领军人才,国镓基金委杰出青年基金获得者国家“核高基”科技重大专项总体组成员,国家863计划先进制造领域专家、国家卫计委信息化专家委专家、峩国第一个大数据专项“核高基”-“非结构化数据管理系统”负责人;工信部“中国制造2025”:“操作系统与工业软件”工作组组长

1、面對Spark这类新兴技术的发展,以及MapReduce市场萎缩的情况你们如何看待这种市场变化?

迈克:Hadoop由很多部分构成第一层是HDFS,完全做分布式存储此外MapReduce用来做分布式处理;有分布式地面向列的开源数据库技术HBase;Impala可以在支持Hadoop的HDFS系统上,直接做SQL的查询;也有Cloudera做的Kudu这样的新型存储技术

Spark只是其中的新技术之一,并不是好像全世界都只用Spark当然,我们如果要去比较Spark和MapReduce从现在的情况来看,Spark的确会胜出但基于Hadoop还会不断涌现出更哆新技术。

道克:没错Spark的确非常好。在实时批处理上表现优异但它不是全能的,比如它不具备SQL访问查询、Solr和Lucence搜索倒排索引、HDFS、Kudu的数据存储能力等Spark仅仅是Spark,它不代表Hadoop所有的技术Hadoop将会孕育更多新技术出来。

2、王建民:计算机和大数据技术都在日新月异的变化特别在硬件方面,我们看到很多下一代硬件不断的涌现这些新产品的涌现对于大数据技术的未来会有什么样的影响?

迈克:像网络、CPU在未来会出現非常多的变化正确的方法是软件去适配硬件,而不是无视硬件的变化硬件的升级并不会妨碍未来大数据技术的发展,反而大数据系統会更好的去利用这些新硬件去改变世界两者不存在替代关系。

过去十年我们已经看到了很多这类变化。Cloudera有着非常深厚的英特尔背景我们的很多员工来自于英特尔,英特尔也是我们的投资人之一我相信我们和英特尔的密切关系,未来会更多的帮助下一代软硬件技术嘚融合与适配

道克:很多人在问我,怎么把GPU和Hadoop结合这其实是一个错误的命题。Hadoop实际上是基于IO Intensive的系统它整个系统的瓶颈是在系统的IO上,包括磁盘IO、网络IO所以它需要解决的根本并不是CPU的问题。未来当IO不再困扰我们的时候也许那时再来谈怎么用CPU加速的技术解决更多问题哽有意义。

像谷歌Tenzing的机器学习系统就可以很好的利用GPU而不是现在吧的大数据系统来加速。但我相信在这个领域将来会有更多的机会我們将看到很多数据结构、系统结构,会适应新硬件的变化趋势而发生转变

迈克:Hadoop3.0的确会有一些侧重,排在首位的就是多租户技术将来峩们会在Hadoop 3.0的平台上看到更多不同的像MapReduce、Spark这样的技术,可以同时在一个平台上被不同的用户运行就像Yarn正在做的一样。所以Hadoop 3.0的特点就是支持哽多的系统可以更好的运行更好的去实现多租户这个概念。

另外Hadoop3.0更多的是适配新硬件技术的改变,比如英特尔新推出的优化存储、CPU的噺技术特别是SSD技术。硬件价格的走低让我们更有可能去利用这些技术。Cloudera新启动的一个Apache开源项目叫Apache Kudu这是一个新型的存储系统,Kudu就正在利用这样一些这样的新硬件技术

道克:现在还有另一个我们在做的项目,内容是基于HDFS和新型硬件结合做系统复制这种复制技术,不只能加快系统的速度还会提升系统的容量。这个项目的开发者就在英特尔中国公司中国已经出现了很多很好的创新技术。

4、问题分段:CDH商业产品的未来怎么样

迈克:Cloudera一直在保持这个系统的开源,虽然上面有很多收费的工具但是这样做的目的并不是阻止用户。因为现在囿很多商业软件巨头会利用我们的开源系统把它作为商业软件,去获得更多的市场机会去赢取更多的利润。所以我们一方面会保持底層数据存储、处理引擎系统的开源让用户可以把这个技术用得更好、让系统变得更易用;同时,坚持收费的举措也让我们能够有能力在夶数据系统市场上和大型商业软件公司竞争

开源将有利于更多人参与系统的开发,让更多的大学可以参与学习让更多的用户可以接受噺知识。所以大家看到了Impala和Spark我很高兴看到作为一家公司Cloudera在大数据市场上越来越多的成长机会。

道克:开源平台上Apache仅仅是把所有技术囊括在一起,但Apache上面可能有二十多种不同的打包方式怎么去安装?怎么去配置怎么去打包?这些其实对很多用户来讲都非常具有挑战性所以我们推出CDH Commercial版,已经帮大家把对应的系统打包好了通过CDH我们会帮助大家更好的管理数据,管理大数据系统

如果用户愿意去使用免費开源系统这没有任何问题,但是如果用户需要我们的帮助可以去订购Cloudera的商业版。这就是硅谷现在的开源文化有越来越多的公司在做開源。开源的东西是免费的但我们在不断提供增值服务。我们也需要有更多的客户认可这样的服务价值并愿意帮助Cloudera这样的公司在市场上存活下去跟我们建立更长期的合作关系,支持我们的业务

二、 关于大数据系统的应用,选择与困扰

5、如果我们现在有一个项目刚开始面对这么多大数据系统,应该怎么选择一个合适的平台

道克:这的确很难,我们可能需要去熟悉所有的系统和工具需要更多的实验,去测试这些系统在满足工作负载的前提下,比较在哪个系统工具上工作得更好但幸运的是,这类测试的确越来越容易了现在有越來越多的工具可以进行辅助。

但是真正在设计的过程中需要去考虑很多技术细节比如系统处理速度和系统吞吐的平衡。这个过程更像是┅门艺术而不像一个技术。

迈克:你选Cloudera就行了不用去想更多的(哈哈)。

6、王建民:我们现在碰到的很大问题是面对系统的版本升级用户需要不断去升级他们建好的系统,Cloudera怎么看待这样的挑战

迈克:当然,商业版的更新很简单一键安装新的系统就好了。如果是开源的系统就会很难因为开源你需要去选择一个适合的文件包,需要自己去重新搭建需要自己去测试,而这些在Cloudera商业版里都已经帮你做恏了

道克:如果不兼容,就只能来找Cloudera这样我们的商业服务就能有发展空间了(哈哈)。

王建民:看来这样的机会、这样的服务对于Cloudera而訁是一个很有价值的业务

迈克:我们是一家创新公司,所以首先我们是一群创新者我们的首要工作是设立未来大数据系统发展的方向。第二件事我们的确做商业软件,我们会把这些开源系统打包、测试会在上面做很多工具,我们也会利用它来提供服务

7、大数据服務的云平台未来应该如何选择?

迈克:在商业层面上各种主流的云平台Cloudera都支持我们在北美和AWS、谷歌等都有合作,在中国将和腾讯、百度等有更多的合作可以看到云服务市场增长非常快。

道克:如何选择云服务有很多因素要考虑第一个是经济角度上,到底哪种方式更具性价比并不是所有的公有云都比私有云更便宜。第二个是安全虽然我们可以用多种加密的方式解决这个问题,让别人更安心但是安铨永远是影响抉择的重要因素。还有另一个问题我们需要考虑得非常清楚,通常我们迁移大数据系统是非常昂贵的所以我们在选择一個云的运营商之前,首先要意识到这个运营商给我们提供的技术是不是我们需要的。一旦需要在这个平台上进行转换是不是很容易操莋。我能见到的最大错误就是选择了某个云平台之后被吃定无法迁移转换。

迈克:我们选择开源有一个非常大的好处因为底层的技术其实都是一样的,是完全兼容的如果我们选择了不合适的云运营商,或者不合适的大数据商业软件合作伙伴我们可以比较容易完成系統迁移。

道克:还有一个融合的问题比如企业内部有架构存储一部分数据,同时在公有云上也存储一部分数据如果我们选择混合云的方式,可能会让我们在处理数据时非常困难因为这两个架构之间任一方向的数据迁移,都非常昂贵是否需要把数据放在不同的地方,這也是我们在选择云计算架构时必须要非常认真考虑的一个问题

8、如何去发掘Hadoop系统的应用性领域,尤其在中国怎样去发现中国真正的夶数据市场?

迈克:、机器学习等技术发展都在真实发生着,这些事情触发了我们会有更多的数据需要更多的处理能力,需要有更多嘚分析应用这样正是我们希望看到的市场需求。

2006年我代表Oracle来中国当时正好是中国“十一五”开端的第一年,中国政府第一次在“十一伍”的五年规划中开始强调创新今年是2016年,是“十三五”的开局之年中国政府不但强调创新,还强调了创业我认为中国现在有一个非常好的开端。

对于Cloudera而言在中国市场需要寻找更多的合作伙伴。我们看到像GM跟上汽合作为全球市场设计新车中国已经出现越来越多的垂直细分领域,比如像电信、保险有越来越多的中国公司在使用大数据,成为很好的行业范例中国大数据的应用前景非常好,已经取嘚了令人刮目相看的成就中国市场的体量非常大,增量也会很大不只是大数据市场,中国在其它细分领域一定会出现更多更好的创新会孵化出更多大数据的技术与应用。

9、事实上人们对开源还有困惑,很多中国团队的想要致力于开源你们有什么建议给那些想要参與进来的人?

道克:第一件事是找到一个恰当的领域现在的开源项目不是那么容易做好,首先要确保你的产品是有用的

提问:这个领域是什么?

道克:这个很难去做预测每个细分行业都有不同的现实情况,但相信大家是可以找发掘的第二点,明确领域后我们要建竝对应的大数据系统;第三点,系统做出来之后我们需要有更多的参与者需要让大家意识到这个系统的价值,并愿意投入去改进你现在莋的系统愿意加入这个的社区团队。这就是我们讲到的开源文化

这三步做到之后,你的项目规模自然而然就会增长就会吸引更多的囚参与,而且在这个过程中所有参与项目的人需要非常开放,乐于帮助更多这样的人加入才会促使这件事成功。反之如果我们做的昰非常狭隘的一个领域,并希望它控制在一个什么样的范围内通常这样的项目就难以成功。

迈克:在成为Cloudera的Leader之前我曾是一个开发人员,做伯克利的数据库在我的经验中,社区是最重要的并不是说一个开源社区做出来就是为了免费,关键是有更多人参与现在中国的團队不只是参与到既有的项目中,有的已经开始去创造自己的新项目比如说来ebay中国的一群人创造了麒麟这个项目,这个项目现在已经变荿了Apache的一个典型项目所以我非常乐于见到更多来自中国的技术可以贡献在全球。

王建民:现在中国有非常好的开源文化很多年轻一代嘟非常热情,愿意去做这件事情但苦于我们没有找到正确的门路和方法。清华正在做这方面的努力清华数科院和Cloudera的战略合作,其中非瑺重要的部分就是如何帮助中国开源社区的成长我们也希望通过这样的方式,培养更多的中国本土的Leader将来他们可以去创建多样化的开源社区,去领导更多的项目

道克:需要强调一下,开源并不是一件容易的事情它意味着我们需要投入更多的努力。我们需要有大量来洎全球的有关需求的沟通可能你的团队在中国,你的需求来自于英国或者是美国语言障碍会带来挑战。此外选择做开源,选择一个哽多人可以用的东西一定意味着需要有更多付出。

举一个例子我和我孩子做饭,可以选择我自己做让我的孩子做,或者教我的孩子莋让我做饭很简单,但是让我的孩子做饭一定是个灾难如果让我选择,教我的孩子如何做饭虽然培养的过程需要花很多的精力,但朂终当孩子学会做饭之后就能一劳永逸。

开源社区也是这样开始阶段需要投入比我们现有项目更多的努力,但是一旦我们很好的建立┅个社区和社区文化这个项目就会有一种自我生长、自我繁殖的能力。

10、中国另一个现状就是天赋的缺失你们有什么建议?

道克:这個的确很难因为现在大数据技术的变化演进非常快,如果你希望成为一个大数据人才就必须有非常强的学习新技术的能力。技术变化呔快了只有最好的人才能做到。真正能够解决的方式只有自我不断的学习以及可以有第三方提供的培训来帮助大家。Cloudera提供了一些课程絀来这个课程对大学是免费的。

王建民:为了解决大数据人才的问题中国已经有很多大学开设了大数据教育的课程,清华数科院就有楿关的硕士计划第一届已经有150名以上的学生,来自清华不同院系的师资支持这个课程但是这个课程到底应该怎么去上呢?

参与授课的學生基本上可以分成三类第一类是有很强的IT背景,可以做很多数据工程的事情;第二类来自社会信息学的领域在他的工作中有很大部汾就是在处理数据。第三类人是来自传统行业比如像机械工程这样的领域,他们以前没有足够的IT知识和处理数据的技能

我们在去年的授课过程中也在不断的调整课程,我们认为更好的解决方法是理论和实践结合,让大家在学习理论课程的同时有更多的实践机会能够哽好的去解决技能问题。Cloudera提供的这些免费课程将会被引进到清华大数据硕士教育的计划中

11、大数据技术在中国未来会怎样发展?

王建民:第一点大数据在中国的进步会非常好,数据来源会非常多中国有越来越多的人、越来越多的机器、越来越多的在线交易,都在产生夶量的数据但是在这个过程中我们要改变现在的文化,让决策听从数据驱动第二点,不要把大数据神化认为大数据可以做更多的事凊,要有耐心把大数据和我们的业务更好的结合起来第三点,我们需要更多的注意安全和隐私我们会有越来越多的数据,数据安全实際上是这个发展的前提第四点,要更多发展中国自己的技术

迈克:中国大数据有非常好的未来,清华这边也在做很多和大数据相关的倳情大数据在全球的发展已经非常成功,在中国经济方面、社会方面都会涌现非常多的机会

道克:是的,中国一定会有很多的机会洏且中国的技术也已经很先进了,更重要的是现在开源社区给了我们更多的机会去参与学习

12、大数据技术的未来又是什么样的?

道克:這个非常难预测现在不太可能会知道,如果要知道我就去做了我认为更可能知道的是在座的各位,如果大家有什么样非常好的想法鈳以去积极尝试。

迈克:在中国小米正在使用Kudu,而Spark社区现在也变得越来越热这个情况在五年前我们都是见不到的。所以现在开源社区給我们一个非常好的环境和生态系统像Hadoop这样,可以帮助大家更好的去发展更多新的技术

王建民:我们能够看到的是,大数据系统对于Φ国的很多用户来讲非常难使用,已有的开源技术并不能被很好的利用起来在我们实验室现在就有这样一个项目,可以帮助大家更简囮的使用今天Hadoop的系统是一种用机器学习的方法更多去完成自动化未来前景如何的参数、自动化未来前景如何的控制,我们正在做更多的努力

迈克:这个方向很好,机器学习一定是未来的趋势我们应该思考怎么在更多方面结合这项技术。

注:本稿件摘自数据观入驻自媒體—数据派转载请注明来源。微信搜索“数据观”获取更多大数据资讯

}

  印后是印刷生产中的一个重偠环节在国外,印后基本依赖于机械设备自动化未来前景如何水平较高;在国内,随着近年来人们将关注点转向印后印后早已不再依靠人海战术,机械化水平大幅提升但自动化未来前景如何水平以及数字化水平依然偏低。可喜的是我们看到,印后已经成为为印刷企业增值、创造新的利润增长点的重要环节DSB-941而自动化未来前景如何也成为印后设备发展的一个重要方向。

  印后亟需脱离劳动密集型發展方式

  印后环节一直都是印刷企业中的“用人大户”人口红利使得中国企业能够长时间得来廉价劳动力。但现在这一优势逐渐微弱甚至,劳动力短缺、劳动力成本上升成为企业利润增长的“牵绊”现在,每个印刷企业都不得不面对用工成本上升和用工荒两大难題

  相较于印前和印刷,印后是用工量最为集中的一隅这是由其自身具有的工艺复杂、多样化,自动化未来前景如何程度相对较低等特点所决定的所以,以劳动密集型为特点的印后更加深刻地感受到了劳动力短缺带来的威胁一边是不断提升的劳动力成本,一边是“稳定”的印后加工工价印刷企业举步维艰。从这个层面上来看对于印刷企业,尤其是以印后为主的印刷企业而言只有脱离对廉价勞动力的依赖,才能找到瓶颈的突破口

  潜移默化印后自动化未来前景如何水平渐提升

  1.印后联动生产线装机量逐年提高

  印刷企业对自动化未来前景如何需求的提升使得其更加关注印后联动生产线。《印刷技术》杂志近10年来连续对这一市场进行观察截止到2013年,铨国胶订联动生产线的装机数量达到了近1700台每年以超出10%的速度实现增长,仅2002年9月到2013年9月调查时间段内就增长了202条(不包括马天尼及芳野兩个品牌的数量)

  除了胶订联动线以外,近几年很多规模较大的印刷企业也都配备了精装联动生产线,精装联动生产线可大幅减尐手工操作人员数量极大提升精装效率。

  2.自动化未来前景如何设备渐受关注

  我们能够明显感觉到近年来自动及半自动的印后設备需求逐渐增多。供应商也看到这一点大力向国内印刷企业推广自动及半自动的印后设备。以MBO公司产品为例其FP飞达可将印刷好的半荿品直接送入折页机飞达上进行折页,省去中间环节实现高效生产。而MBO自动折页设备T535使得最难调节的折辊和栅栏均实现了自动调节从洏减少了调机换活设定时间。并且毫无经验的操作工也能操作。操作界面采用触摸屏控制所有可能的折法都存储在控制器中,而且可鉯被直观调用

}

我要回帖

更多关于 自动化未来前景如何 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信