为什么说"大数据带给人们的是一种意义更为深远的摩尔曼斯克定律

大数据与数据挖掘的辩证关系-学网-中国IT综合门户网站-提供健康,养生,留学,移民,创业,汽车等信息
大数据与数据挖掘的辩证关系
来源:互联网 更新时间: 15:15:31 责任编辑:鲁晓倩字体:
泄密者爱德华&斯诺登(Edward Snowden)还在寻求容身之所的时候,美国国家安全局(NSA)全方位收集电话和电子邮件记录之事经过他的披露,已经引发了不安和愤怒。奥巴马当局声称,监听数据带来了安全,然而左翼和右翼都在谴责这种窥探行为是对隐私的侵犯。
数据不是信息,而是有待理解的原材料。但有一件事是确定无疑的:当NSA为了从其海量数据中&挖掘&出信息,耗资数十亿改善新手段时,它正受益于陡然降落的计算机存储和处理价格。
麻省理工学院的研究者约翰&古塔格(John Guttag)和柯林&斯塔尔兹(Collin Stultz)创建了一个计算机模型来分析之心脏病病患丢弃的心电图数据。他们利用数据挖掘和机器学习在海量的数据中筛选,发现心电图中出现三类异常者&&一年内死于第二次心脏病发作的机率比未出现者高一至二倍。这种新方法能够识别出更多的,无法通过现有的风险筛查被探查出的高危病人。
数据挖掘这一术语含义广泛,指代一些通常由软件实现的机制,目的是从巨量数据中提取出信息。数据挖掘往往又被称作算法。
威斯康星探索学院主任大卫&克拉考尔(David Krakauer)说,数据量的增长&&以及提取信息的能力的提高&&也在影响着科学。&计算机的处理能力和存储空间在呈指数增长,成本却在指数级下降。从这个意义上来讲,很多科学研究如今也遵循摩尔定律。&
在 2005年,一块1TB的硬盘价格大约为1,000美元,&但是现在一枚不到100美元的U盘就有那么大的容量。&研究智能演化的克拉考尔说。现下关于大数据和数据挖掘的讨论&之所以发生是因为我们正处于惊天动地的变革当中,而且我们正以前所未有的方式感知它。&克拉劳尔说。
随着我们通过电话、信用卡、电子商务、互联网和电子邮件留下更多的生活痕迹,大数据不断增长的商业影响也在如下时刻表现出来:
你搜索一条飞往塔斯卡鲁萨的航班,然后便看到网站上出现了塔斯卡鲁萨的宾馆打折信息
你观赏的电影采用了以几十万G数据为基础的计算机图形图像技术
你光顾的商店在对顾客行为进行数据挖掘的基础上获取最大化的利润
用算法预测人们购票需求,航空公司以不可预知的方式调整价格
智能手机的应用识别到你的位置,因此你收到附近餐厅的服务信息
大数据在看着你吗?
除了安全和商业,大数据和数据挖掘在科研领域也正在风起云涌。越来越多的设备带着更加精密的传感器,传回愈发难以驾驭的数据流,于是人们需要日益强大的分析能力。在气象学、石油勘探和天文学等领域,数据量的井喷式增长对更高层次的分析和洞察提供了支持,甚至提出了要求。
2005年6月至2007年12月海洋表面洋流示意图。数据源:海面高度数据来自美国航空航天局
(NASA)的Topex/Poseidon卫星、Jason-1卫星,以及海形图任务/Jason-2卫星测高仪;重力数据来自NASA/德国航空航天中心的重力恢复及气候实验任务;表面风压数据来自NASA的 QuikScat任务;海平面温度数据来自NASA/日本宇宙航空研究开发机构的先进微波扫描辐射计&&地球观测系统;海冰浓度和速度数据来自被动微波辐射计;温度和咸度分布来自船载、系泊式测量仪器,以及国际Argo海洋观测系统。
相关文章:
上一篇文章:下一篇文章:
最新添加资讯
24小时热门资讯
Copyright © 2004- All Rights Reserved. 学网 版权所有
京ICP备号-1 京公网安备02号大数据时代的互联网思维
热搜词: &&&&&&
大数据时代的互联网思维
  2009年联合国制定了“数据脉动”计划,2010年英国发起了“数据权”运动、2012年美国实施了“大数据”战略,最近新加坡等提出“大数据治国”理念, “大数据”时代的序幕由此渐渐拉开。今年7月25日,国务院总理李克强在听取浪潮云计算、大数据产业发展汇报后指出,信息化正在全球快速发展,云计算、大数据是一个大潮流。作为继物联网、数字城市、智慧城市之后的又一个流行词汇, “大数据”的究竟是什么?大数据时代下应树立怎样的思维?大数据对国家治理现代化和反腐倡廉有什么作用?
  一、大数据时代正悄然来临
  今年全国两会时,“大数据” (Big data)第一次出现在政府工作报告中,这表明我国对大数据重要性的认识上升到了国家层面。信息产业发达国家,如美、英、德、日等此前已将大数据作为国家核心竞争力提升为了国家战略。数字主权将是继边防、海防、空防之后,又一个大国博弈的空间。
  (一)大数据的定义和特征
  大数据并非现在才出现。中国东汉时期人口已达6千多万,这显然是一个大数据,但不是今天讨论的大数据。维基百科对大数据的定义为:“大数据意指一个超大、难以用现有常规的数据库管理技术和工具处理的数据集。”IDC(互联网数据中心)报告对大数据的定义为:“大数据技术描述了一种新一代技术和构架,用于以很经济的方式、以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值。”大数据研究的目的是将数据转化为知识,探索数据的产生机制,进行预测和政策制定。建立在相关关系分析法基础上的预测是大数据的核心,通过找出一个关联物并监控它,我们就能预测未来。
  大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低和处理速度快。具体来讲,一是数据体量巨大。数据信息计量的最小基本单位是字节(Byte) ,换言之, Byte是计算机信息技术用于计量存储容量和传输容量的一种计量单位,一个字节等于8位二进制数,在UTF-8编码中,一个英文字符等于一个字节。数据存储是以“字节”(Byte)为单位,数据传输是以“位”(bit)为单位,一个位就代表一个0或1(即二进制),每8个位(bit)组成一个字节(Byte)。8bit=1Byte,数据存储是以10进制表示,数据传输是以2进制表示,所以1KB不等于1000B,而是1KB=1024B, K是千, M是兆 ,G是吉咖, T是太拉。按信息量从小到大的顺序,单位分别是:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,除了1Byte=8bit而外,后续的计量单位均按照进率次方)来计算。大数据的“大”没有精确的定义,不同的时代对应着不同的大数据规模,当前大数据的数据规模在GB、TB、PB、EB、ZB这几个规模尺度上。二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。三是价值密度低。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。大数据分析犹如“大海捞针”。四是处理速度快。数据处理遵循“1秒定律”,需从各种类型的数据中快速获得高价值的信息。
  (二)大数据的主要成因
  大数据的背后推手有哪些?以下三大因素是大数据的主要成因:
  第一,人类保持数据的能力增强。
  1965年,英特尔的创始人之一戈登·摩尔提出了著名的摩尔定律。该定律认为,同一面积集成电路上可容纳的晶体管数量,一到两年将增加一倍。回顾半个多世纪的历史,硬件技术的发展基本符合摩尔定律。以物理存储器为例,其性能不断上升,与此同时,价格不断下降。1955年,IBM推出第一款商用硬盘存储器,一兆字节的存储量需要6000多美元。到2010年,一兆字节的存储量仅仅需要0.005美分。半个多世纪,存储器的价格下降了1亿倍!
  预计2020年,1太硬盘的价格将下降到3美元,相当于一杯咖啡的价格。一所普通大学的图书馆,其馆藏量大约就一两个太。也就是说,到2020年,只需要花上一杯咖啡的钱,就可以把一个图书馆的全部信息拷进一个小小的硬盘。正是因为存储器的价格在半个世纪之内经历了空前绝后的下降,人类才可能以非常低廉的成本保存海量的数据,这为大数据时代的到来铺平了硬件道路,打下了坚实的物质基础。
  第二,人类生产数据的能力增强。
  从2004年起,以脸谱网(Face book)、推特(Twitter)为代表的社交媒体相继问世,拉开了互联网的崭新时代―2.0时代。社交媒体的问世,带来以下三大变化:
  一是社交媒体把交流和协同的功能推到了一个登峰造极的高度。在此之前,互联网的主要作用是信息的传播和分享,其最主要的组织形式是建立网站,但网站是静态的。进入Web2.0时代之后,互联网开始成为人们实时互动、交流协同的载体。日,美国弗吉尼亚州发生5.9级地震,纽约市居民首先在推特上看到这个消息,几秒钟之后,人们才感觉到地震波从震中传过来的震感。社交媒体把人类信息传播的速度,带到了比地震波还快的时代!
  二是社交媒体推动数据总量骤然增加。由于社交媒体的横空出世,人类自己开始在互联网上生产数据,例如发推特、微博和微信,记录各自的活动和行为,全世界的网民都是数据的生产者,每个网民都犹如一个信息系统、一个传感器,不断地制造数据,这引发了人类历史上迄今为止最庞大的数据爆炸。2012年,乔治敦大学的教授李塔鲁考察了推特上产生的数据量,他做出估算说,过去50年,《纽约时报》总共产生了30亿个单词的信息量,现在仅仅一天,推特上就产生了80亿个单词的信息量。也就是说,如今一天产生的数据总量相当于《纽约时报》100多年产生的数据总量。
  数据量的增长到现在,已经不是以我们所熟知的多少G和多少T来描述了,而是以P(1千T),E(1百万T)或Z(10亿T)为计量单位。百度对此给予了更形象的描述。仅其新首页导航每天就要从超过1.5PB的数据中进行挖掘,这些数据如果打印出来将超过5千亿张A4纸,摞起来会超过4万公里高,接近地球同步卫星轨道长度,平铺可以铺满海南岛。而2020年新增的数字信息将是2009年的近45倍。如今,只需要两天就能创造出自文明诞生以来到2003年所产生的数据总量。
  三是社交媒体使人类的数据世界更为复杂。数据包含两类数据:结构化数据和非结构化数据。在大家发的微博中,你的带图片、他的带视频,大小、结构完全不一样。因为没有严整的结构,在社交媒体上产生的数据,也被称为非结构化数据。目前全世界的数据大约75%都是非结构化数据。这部分数据的处理,远比结构严整的数据困难。
  第三,人类使用数据的能力增强。
  大数据之大,不仅在于其大容量,更在于其大价值。最根本的原因,是人类使用数据的能力取得了重大突破和进展。
  这种突破集中表现在数据挖掘上。数据挖掘是指通过特定的算法对大量的数据进行自动分析,从而揭示数据当中隐藏的规律和趋势,即在大量的数据当中发现新知识,为决策者提供参考。数据挖掘进步的根本原因是人类能够不断设计出更强大的模式识别算法。正是通过数据挖掘,各大商家谱写了不少点“数”成金的传奇故事。例如沃尔玛通过捆绑“啤酒和尿布”提高销量。阿里巴巴等凭借长期以来积累的用户资金流水记录,涉足金融领域,在几分钟之内就能判断用户的信用资质,决定是否为其发放贷款。
  2014年1月,美国的电子零售巨头亚马逊宣布了一项新的专利:“预判发货”。即在网购时,顾客还没有下单,亚马逊就将包裹寄出。这种顾客未动、包裹先行的做法,核心技术还是数据挖掘。发货的根据是顾客以前的消费记录、搜索记录以及顾客的心愿,甚至包括用户的鼠标在某个商品页面上停留的时间。微软纽约研究院经济学家大卫·罗斯柴尔德利用大数据准确预测了2014年第86届奥斯卡24个奖项中的21个奖项。 2012年,他正确预测了美国51个行政区中50个总统大选的结果……结果就在大数据中,惊喜已死。“所谓大数据,是一个综合性概念,它包括因具备3V(Volume/Variety/Velocity)特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织。”
所谓“存储、处理、分析的技术”,指的是用于大规模数据分布式处理的框架Hadoop、具备良好扩展性的NoSQL数据库,以及机器学习和统计分析等。所谓“能够通过分析这些数据获得实用意义和观点的人才和组织”,指的是目前在欧美十分紧俏的“数据科学家”这类人才,以及能够对大数据进行有效运用的组织。
大数据的民主化
大数据本身并不是一个新的概念。特别是仅仅从数据量的角度来看的话,大数据在过去就已经存在了。例如,波音的喷气发动机每30分钟就会产生10TB的运行信息数据,这样计算的话,安装了4台发动机的大型客机,每次飞越大西洋就会产生640TB的数据。世界各地每天有超过2.5万架的飞机在工作,可见其数据量是何等庞大。生物技术领域中的基因组分析,以及以NASA(美国国家航空航天局)为中心的太空开发领域,从很早就开始使用十分昂贵的高端超级计算机来对庞大的数据进行分析和处理了。
现在和过去的区别之一,就是大数据已经不仅产生于特定领域中,而且还产生于我们每天的日常生活中,Facebook、Twitter等社交媒体上的文本数据就是最好的例子。而且,尽管我们无法得到全部数据,但大部分数据可以通过公开的API(应用程序编程接口)相对容易地进行采集。在B2C企业中,使用文本挖掘(text mining)和情感分析等技术,就可以分析消费者对于自家产品的评价。
硬件性价比的提高以及软件技术的进步
另一个原因在于,计算机性价比的提高,磁盘价格的下降,利用通用服务器对大量数据进行高速处理的软件技术Hadoop的诞生,以及随着云计算的兴起,甚至已经无需自行搭建这样的大规模环境。上述这些因素,大幅降低了大数据存储和处理的门槛。因此,过去只有像NASA这样的研究机构以及屈指可数的几家特大企业才能做到的对大量数据的深入分析,现在只要极小的成本和时间就可以完成,无论是刚刚创业的企业,还是中小企业或是大企业,都可以对大数据进行充分的利用。
(1)计算机性价比的提高
承担数据处理任务的计算机,其处理能力遵循摩尔定律一直在不断进化。所谓摩尔定律,是美国英特尔公司共同创始人之一的高登o摩尔(Gordon Moore,1929~)于1965年提出的一个观点,即“半导体芯片的集成度,大约每18个月会翻一番”。从家电卖场中所陈列的电脑规格指标就可以一目了然地看出,现在以同样的价格能够买到的计算机,其处理能力已经和过去不可同日而语了。
(2)磁盘价格的下降
除了CPU性能的提高,硬盘等存储器(数据的存储装置)的价格也明显下降。2000年的硬盘驱动器平均每GB容量的单价约为16美元到19美元,而现在却只有7美分,相当于下降到了10年前的230~270分之一(图表1-4)。换算成人民币的话,就相当于4~5毛钱的样子。
变化的不仅仅是价格,存储器在重量方面也产生了巨大的进步。1982年日立最早开发的超1GB级硬盘驱动器(容量为1.2GB),重量约为250磅(约合113千克)。而现在,32GB的微型SD卡重量却只有0.5克左右,技术进步的速度真是相当惊人。
(3)大规模数据分布式处理技术Hadoop的诞生
Hadoop是一种可以在通用服务器上运行的开源分布式处理技术(详细说明见第2章),它的诞生成为了目前大数据浪潮的第一推动力。如果只是结构化数据不断增长,用传统的关系型数据库和数据仓库,或者是其衍生技术,就可以进行存储和处理了,但这样的技术无法对非结构化数据进行处理。Hadoop的最大特征,就是能够对大量非结构化数据进行高速的处理。
云计算的普及
上述①~③所提到的这种大数据的处理环境,现在在很多情况下也并不一定要自行搭建了。例如,使用Amazon的云计算服务EC2(Elastic Compute Cloud)和S3(Simple Storage Service),就可以在无需自行搭建大规模数据处理环境的前提下,以按用量付费的方式,来使用由计算机集群组成的计算处理环境和大规模数据存储环境了。此外,在EC2和S3上还利用预先配置的Hadoop工作环境提供了“EMR”(Elastic MapReduce)服务。利用这样的云计算环境,即使是资金不太充裕的创业型公司,也可以进行大数据的分析了。
实际上,在美国,新的IT创业公司如雨后春笋般不断出现,它们通过利用Amazon的云计算环境,对大数据进行处理,从而催生出新型的服务。这些公司包括网络广告公司Razorfish、提供预测航班起飞晚点等“航班预报”服务的FlightCaster、对消费电子产品价格走势进行预测的等。下面我们来介绍一下和FightCaster这两家公司的案例。
<是一家成立于2010年的创业型公司,它提供的服务主要是告诉大家数码相机、电脑、智能手机、电视机等数码产品什么时候购买最划算。
也许大家都有这样的经历,刚刚买的数码相机和电视机,马上就降价了,真是后悔不已。利用所提供的服务,就可以知道价格上涨和下降的时机,再买这些产品时就不会让自己后悔了。
<每天要从数百家网上商城中收集超过10万条家电和数码产品的价格数据,同时还会搜索关于这些产品的博客和新闻报道,以获取是否会有新型号准备发售等信息。这些数据的数据量每天超过25GB,整体用于分析的数据量则高达约100TB。这些收集到的数据会被发送到Amazon的云计算平台,并通过Hadoop来进行统计和分析工作。
<竞争力的源泉,来自公司中4位计算机科学博士所开发的算法,这种算法可以对家电和数码产品价格的上涨或下降走势做出高精度的预测。
我们输入了几种产品进行测试,得到的结果如下。
Amazon平板电脑Kindle Fire
Kindle Fire是日发售的,我们询问发售两周后是否值得购买,得到的回答是:
“可以购买,价格不太可能会下降。”(Buy Prices not likely to drop)(图表1-5)。
三星Galaxy Tab 10.1
三星Galaxy Tab(10.1英寸版)是2011年6月发售的,在发售半年之后的12月1日,是否值得购买呢?得到的结果是:“在涨价之前购买。”(Buy Before prices rise)如果相信给出的建议,则该产品有86%的概率会在两周之内涨价(图表1-6)。
索尼46英寸液晶电视Bravia(KDL-46BX420)
这款索尼46英寸液晶电视是2011年1月发售的,在发售约11个月之后的2011年12月是否值得购买呢?得到的结果是:
“等待价格下降”(Wait for prices to drop)根据的预测,该产品有84%的概率会在两周内降价(图表1-7)。
遗憾的是,该服务还不支持日本市场,不过它依然是一项十分有意思的服务。
(2)FlightCaster
FlightCaster创立于2009年,它所提供的服务,是在航空公司发出正式通知6个小时之前,就能够对航班晚点做出预报。
FlightCaster的预报是基于交通统计局的数据、联邦航空局航空交通管制系统指令中心的警报、FlightStats(一个发布航班运营状况信息的网站)的数据、美国气象局的天气预报等所发布的。这些数据都是公开数据,有需要的话,任何人都可以获得。
基于这些数据,FlightCaster可以做出类似“正点概率为3%,轻微晚点(60分钟以内)概率为14%,晚点60分钟以上概率为83%”这样的预测。如果预报显示该航班有很大概率会晚点,还会给出相应的理由,如“目的地因暴雨天气风力较强”、“(往返飞行的)到达航班已经晚点72分钟”等(图表1-8)。
该公司服务的强项在于,可以对过去10年的统计数据加上实时数据所构成的庞大数据,通过其拥有专利的人工智能算法进行分析,做出准确率高达85~90%的航班晚点预测。
既然能够产生如此准确的预测结果,我们不禁要关心其所运用的技术和硬件架构。FlightCaster是一家创业型公司,并没有丰厚的资金,为了控制初期投资,其庞大的数据处理都是在Amazon的云计算平台(EC2和S3)上搭建的Hadoop集群中完成的。这个Hadoop集群是Cloudera公司提供的一项名为AMI(Amazon Machine Image)的服务,而FlightCaster正是利用了这个集群上的机器学习功能来进行数据挖掘的。
另一方面,其前端部分是在Heroku公司(被收购)的云计算平台上开发的,Heroku提供了Ruby on Rails(开发框架)的PaaS(Platform as a Service)服务。顺便说一下,Heroku的PaaS是部署在EC2、S3等Amazon云平台上的。
此外,该公司还运用了大量的新技术,如将Hadoop进行抽象化的高级工作流语言Cascading,以及用Java编写的Lisp方言动态语言Clojure等,对于技术极客们来说还是相当有吸引力的。
FlightCaster上还发布了一组到达航班晚点可能性最高和最低的机场排名,这里列出来供大家参考。
到达航班晚点可能性最高的机场
第1名:纽瓦克机场(新泽西州)
第2名:拉瓜迪亚机场(纽约州)
第3名:JFK机场(纽约州)
第4名:芝加哥奥黑尔机场(伊利诺伊州)
第5名:费城机场(宾夕法尼亚州)
到达航班晚点可能性最低的机场
第1名:檀香山机场(夏威夷州)
第2名:盐湖城机场(犹他州)
第3名:达拉斯机场(德克萨斯州)
第4名:辛辛那提机场(肯塔基州)
第5名:约翰o韦恩机场(加利福尼亚州)
本文摘自即将在6月10号左右上市的《大数据的冲击》
云计算一般选平台,利用平台性能为自己服务。
数据不是自己产生的,而是他人产生的,他人产生的数据怎么保证数据的可靠性这是一个问题。
利用他人的数据,加上自己的算法得出结论,这种类型的网站是属于定向特定需求的网站。
微软,谷歌,亚马逊都在做类似的服务,不过就好比搜索引擎一样,我们都是都在发展的道路上。永无止境,生活每天都有变化,这是很累的哦。
科技的发展不比水和空气,几万年了几乎都没有变化的(站在人类对于机能的需求角度上来考虑)
所以做事有风险的,不过我个人很看好,能预测到未来的事情,这看起来是不是很酷呢?
关键他的确很有用,想想一下。你能预测到航班的延迟的时间,就不会因此坐这一班车或者飞机,就不会因此耽误行程,或者给他人提前解释,做好准备,这肯定是有市场的,很实用,不过需要技术性的支持啊。
做前人没有做过的事情,做前人没有做好的事情,都是很困难的。可怕的大数据:揭秘摩尔定律给我们带来了什么-基础器件-与非网
数据的完备性的作用远比准确预测一个总统选举大得多,Google 无人驾驶汽车便是一个很好的例子。首先,无人驾驶汽车可以算是一个,这点应该没有疑问,因为它能像人一样对各种随机突发性事件快速地做出判断。在这个领域 Google 只花了六年时间就做到了全世界学术界几十年没有做到的事情。在 2004 年,经济学家们还认为司机是计算机难以取代人的几个行业之一。当然,他们不是凭空得出这个结论的,除了分析了技术上和心理上的难度外,还参考了当年 DARPA 组织的自动驾驶汽车拉力赛的结果--当时排名第一的汽车花了几小时才开出 8 英里,然后就抛锚了。但是,仅仅过了 6 年后,2010 年 Google 的自动驾驶汽车不仅研制出来了,而且已经在高速公路和繁华的市区行驶了 14 万英里,没有出一次事故。
为什么 Google 能在不到六年的时间里做到这一点呢?最根本的原因是它的思维方式和以往的科学家们都不同--它把这个机器人的问题变成了一个大数据的问题。首先,自动驾驶汽车项目是 Google 街景项目的延伸,Google 自动驾驶汽车只能去它&扫过街&的地方,而在行驶到这些地方时,它对周围的环境是非常了解的,这就是大数据完备性的威力。而过去那些研究所里研制的自动驾驶汽车,每到一处都要临时地识别目标,这是人思维的方式。其次,Google 的自动驾驶汽车上面装了十几个传感器,每秒钟几十次的各种扫描,这不仅超过了人所谓的&眼观六路、耳听八方&,而且积攒下来的大量的数据,对各地的路况,以及不同交通状况下车辆行驶的模式有准确的了解,计算机学习这些&经验&的速度则远远比人快得多,这是大数据多维度的优势。这两点是过去学术界所不具备的条件,依靠它们,Google 才能在非常短的时间里实现汽车的自动驾驶。
大数据的第三个特征在它的英文提法&Big Data&这个词当中体现的很清楚。请注意,这里使用的是 Big Data,而不是 Large Data。Big 和 Large 这两个单词有什么区别呢,Big 更主要是强调抽象意义上的大,而 Large 是强调数量(或者尺寸)大,比如大桌子 Large Table。Big Data 的提法,不仅表示大的数据量,更重要地是强调思维方式的不同。这种以数据为主的新的做法,在某种程度上颠覆了我们长期以来在科学和工程上的方法论。在过去,我们强调做一件事情的因果关系,通过前提和假设,推导出结果。但是在大数据时代,由于数据的完备性,我们常常是先知道结论,再找原因(甚至不去找原因),那么我们是否愿意去接受这样的工作方式。事实上,在一些具有大数据的 IT 公司里,包括 Google,阿里巴巴等,今天已经是按照这种思维方式做事情了。Google 的产品比竞争对手稍微好一点,主要不是靠技术,而是靠它的数据比对手更完备,同时它愿意用数据来解决问题。阿里巴巴的小额贷款能做起来(而其它商业银行做不到),其实就是对大数据思维的一种诠释。这是一种我们以前完全没见过的新的思维方式,一种新的方法论。
大数据的这三个特点导致了机器智能和人具有完全不同的特点,它不是通过逻辑推理归纳演绎得出结论,而是利用大数据的完备性和多维度特点,直接找到答案。而大数据的完备性有可能让机器比人更能够掌控全局,或者说帮助决策者更好地掌握全局。
大数据不仅仅是数据量大,而在于它的天然多维度特点和它的完备性。数据驱动的方法结合呈指数增长的计算机性能导致了机器智能的产生,并且在今天这个时间点上可以比肩人类的智能,这才是大数据重要的根本原因。机器智能和人的智能是不同的,它不是依靠人严密的逻辑推理得到问题的答案,而是通过大数据的完备性直接找到答案,或者根据大数据多维度的特点找到以前我们无法发现的规律性。这将改变我们的思维方式,也就是所谓的采用&大数据思维&。
二、大数据和机器智能的井喷式爆发
大数据这个概念在今天这个时间点被提出来,其根本原因是因为摩尔定律导致互联网的发展,进而使得各种数据量的急剧增长(图5,数据增长的速度快于互联网本身增长的速度)。因此,大数据的第一个来源是互联网,包括移动互联网。大数据的产生还有第二个原因,就是传感器技术的突破--今天各种手机,各种可穿戴式设备都有非常精准的传感器。而一些传感器价格非常便宜(比如 RFID,每个售价仅四美分),使得每一个物品都可以装上一个。这些传感器产生了大量的数据。
那么大数据能有多么完备?未来的机器能有多么&聪明&?我们看两个极端的例子。 
关注与非网微信 ( ee-focus )
限量版产业观察、行业动态、技术大餐每日推荐
享受快时代的精品慢阅读
(有奖互动)问题来了特别篇——想爱就说出来……
旗下网站:
与非门科技(北京)有限公司 All Rights Reserved.
京ICP证:070212号
北京市公安局备案编号: 京ICP备:号}

我要回帖

更多关于 摩尔金融 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信