什么是大数据举例说明概念

扫一扫下载手机客户端
扫描我,关注团购信息,享更多优惠
||网络安全
| | | | | | | | | | | | | | | |
||电子电工
汽车交通| | | | | | | | | |
||投资理财
| | | | | | | | | | | | | | | | |
| | | | | | |
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
||外语考试
| | | | | | | | |
| 视频教程|
热销图书排行榜 (美)Mark Allen Weiss¥24.5 (美)Erich Gamma, Richard Helm, Ralph Johnson, John Vlissides¥28 (美)Ron Patton¥21 (美)Bruce Eckel¥55.3 (美)Bruce Eckel¥86.4 《编程之美》小组¥30 张岩艳;严晨¥34.3
什么是大数据技术?大数据的概念
上一篇: 下一篇:
订单处理配送
北京奥维博世图书发行有限公司 china-pub,All Rights Reserved大数据是什么意思
查看: 10964|
摘要:   大数据(Big Data)   大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety ...
  大数据(Big Data)
  大数据,官方定义是指那些数据量特别大、数据类别特别复杂的数据集,这种数据集无法用传统的数据库进行存储,管理和处理。大数据的主要特点为数据量大(Volume),数据类别复杂(Variety),数据处理速度快(Velocity)和数据真实性高(Veracity),合起来被称为4V。
  大数据中的数据量非常巨大,达到了PB级别。而且这庞大的数据之中,不仅仅包括结构化数据(如数字、符号等数据),还包括非结构化数据(如文本、图像、声音、视频等数据)。这使得大数据的存储,管理和处理很难利用传统的关系型数据库去完成。在大数据之中,有价值的信息往往深藏其中。这就需要对大数据的处理速度要非常快,才能短时间之内就能从大量的复杂数据之中获取到有价值的信息。在大数据的大量复杂的数据之中,通常不仅仅包含真实的数据,一些虚假的数据也混杂其中。这就需要在大数据的处理中将虚假的数据剔除,利用真实的数据来分析得出真实的结果。
  大数据分析(Big Data Analysis)
  大数据,表面上看就是大量复杂的数据,这些数据本身的价值并不高,但是对这些大量复杂的数据进行分析处理后,却能从中提炼出很有价值的信息。对大数据的分析,主要分为五个方面:可视化分析(Analytic Visualization)、数据挖掘算法(Date Mining Algorithms)、预测性分析能力(Predictive Analytic Capabilities)、语义引擎(Semantic Engines)和数据质量管理(Data Quality Management)。
  可视化分析是普通消费者常常可以见到的一种大数据分析结果的表现形式,比如说百度制作的“百度地图春节人口迁徙大数据”就是典型的案例之一。可视化分析将大量复杂的数据自动转化成直观形象的图表,使其能够更加容易的被普通消费者所接受和理解。
  数据挖掘算法是大数据分析的理论核心,其本质是一组根据算法事先定义好的数学公式,将收集到的数据作为参数变量带入其中,从而能够从大量复杂的数据中提取到有价值的信息。著名的“啤酒和尿布”的故事就是数据挖掘算法的经典案例。沃尔玛通过对啤酒和尿布购买数据的分析,挖掘出以前未知的两者间的联系,并利用这种联系,提升了商品的销量。亚马逊的推荐引擎和谷歌的广告系统都大量使用了数据挖掘算法。
  预测性分析能力是大数据分析最重要的应用领域。从大量复杂的数据中挖掘出规律,建立起科学的事件模型,通过将新的数据带入模型,就可以预测未来的事件走向。预测性分析能力常常被应用在金融分析和科学研究领域,用于股票预测或气象预测等。
  语义引擎是机器学习的成果之一。过去,计算机对用户输入内容的理解仅仅停留在字符阶段,不能很好的理解输入内容的意思,因此常常不能准确的了解用户的需求。通过对大量复杂的数据进行分析,让计算机从中自我学习,可以使计算机能够尽量精确的了解用户输入内容的意思,从而把握住用户的需求,提供更好的用户体验。苹果的Siri和谷歌的Google Now都采用了语义引擎。
  数据质量管理是大数据在企业领域的重要应用。为了保证大数据分析结果的准确性,需要将大数据中不真实的数据剔除掉,保留最准确的数据。这就需要建立有效的数据质量管理系统,分析收集到的大量复杂的数据,挑选出真实有效的数据。
  分布式计算(Distributed Computing)
  对于如何处理大数据,计算机科学界有两大方向:第一个方向是集中式计算,就是通过不断增加处理器的数量来增强单个计算机的计算能力,从而提高处理数据的速度。第二个方向是分布式计算,就是把一组计算机通过网络相互连接组成分散系统,然后将需要处理的大量数据分散成多个部分,交由分散系统内的计算机组同时计算,最后将这些计算结果合并得到最终的结果。尽管分散系统内的单个计算机的计算能力不强,但是由于每个计算机只计算一部分数据,而且是多台计算机同时计算,所以就分散系统而言,处理数据的速度会远高于单个计算机。
  过去,分布式计算理论比较复杂,技术实现比较困难,因此在处理大数据方面,集中式计算一直是主流解决方案。IBM的大型机就是集中式计算的典型硬件,很多银行和政府机构都用它处理大数据。不过,对于当时的互联网公司来说,IBM的大型机的价格过于昂贵。因此,互联网公司的把研究方向放在了可以使用在廉价计算机上的分布式计算上。
  服务器集群(Server Cluster)
  服务器集群是一种提升服务器整体计算能力的解决方案。它是由互相连接在一起的服务器群所组成的一个并行式或分布式系统。服务器集群中的服务器运行同一个计算任务。因此,从外部看,这群服务器表现为一台虚拟的服务器,对外提供统一的服务。
  尽管单台服务器的运算能力有限,但是将成百上千的服务器组成服务器集群后,整个系统就具备了强大的运算能力,可以支持大数据分析的运算负荷。Google,Amazon,阿里巴巴的计算中心里的服务器集群都达到了5000台服务器的规模。
  大数据的技术基础:MapReduce、Google File System和BigTable
  2003年到2004年间,Google发表了MapReduce、GFS(Google File System)和BigTable三篇技术论文,提出了一套全新的分布式计算理论。
  MapReduce是分布式计算框架,GFS(Google File System)是分布式文件系统,BigTable是基于Google File System的数据存储系统,这三大组件组成了Google的分布式计算模型。
  Google的分布式计算模型相比于传统的分布式计算模型有三大优势:首先,它简化了传统的分布式计算理论,降低了技术实现的难度,可以进行实际的应用。其次,它可以应用在廉价的计算设备上,只需增加计算设备的数量就可以提升整体的计算能力,应用成本十分低廉。最后,它被Google应用在Google的计算中心,取得了很好的效果,有了实际应用的证明。
  后来,各家互联网公司开始利用Google的分布式计算模型搭建自己的分布式计算系统,Google的这三篇论文也就成为了大数据时代的技术核心。
  主流的三大分布式计算系统:Hadoop,Spark和Storm
  由于Google没有开源Google分布式计算模型的技术实现,所以其他互联网公司只能根据Google三篇技术论文中的相关原理,搭建自己的分布式计算系统。
  Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来,Hadoop被贡献给了Apache基金会,成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席,主持Hadoop的开发工作。
  Hadoop采用MapReduce分布式计算框架,并根据GFS开发了HDFS分布式文件系统,根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同,但是Hadoop在运算速度上依然达不到Google论文中的标准。
  不过,Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo,Facebook,Amazon以及国内的百度,阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。
  Spark也是Apache基金会的开源项目,它由加州大学伯克利分校的实验室开发,是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于,Hadoop使用硬盘来存储数据,而Spark使用内存来存储数据,因此Spark可以提供超过Hadoop100倍的运算速度。但是,由于内存断电后会丢失数据,Spark不能用于处理需要长期保存的数据。
  Storm是Twitter主推的分布式计算系统,它由BackType团队开发,是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性,可以实时的处理大数据流。不同于Hadoop和Spark,Storm不进行数据的收集和存储工作,它直接通过网络实时的接受数据并且实时的处理数据,然后直接通过网络实时的传回结果。
  Hadoop,Spark和Storm是目前最重要的三大分布式计算系统,Hadoop常用于离线的复杂的大数据处理,Spark常用于离线的快速的大数据处理,而Storm常用于在线的实时的大数据处理。
上一篇:下一篇:
Powered by &
这里是—这里可以学习 —这里是。
栏目导航:大数据时代,大数据概念,大数据分析是什么意思_百度经验
&&&&&&互联网大数据时代,大数据概念,大数据分析是什么意思?听语音1234567
百度经验:世界包含很多难以想象数字化信息变得更多更快......从商业到科学,从政府到艺术,这种影响无处不在,科学家和计算机工程师们给这种现象创造了一个新名词:&大数据&。大数据里面包含很多如大数据时代、大数据概念、大数据分析、大数据营销与开发到底是什么意思呢?所谓大数据,那到底什么是大数据,他的来源在哪里,定义究竟是什么呢?下面小编为您详细解答,一起来看看吧百度经验:1大数据的定义。大数据,又称巨量资料,指的是所涉及的数据资料量规模巨大到无法通过人脑甚至主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。2大数据的特点。数据量大、数据种类多、 要求实时性强、数据所蕴藏的价值大。在各行各业均存在大数据,但是众多的信息和咨询是纷繁复杂的,我们需要搜索、处理、分析、归纳、总结其深层次的规律。3大数据的采集。科学技术及互联网的发展,推动着大数据时代的来临,各行各业每天都在产生数量巨大的数据碎片,数据计量单位已从从Byte、KB、MB、GB、TB发展到PB、EB、ZB、YB甚至BB、NB、DB来衡量。大数据时代数据的采集也不再是技术问题,只是面对如此众多的数据,我们怎样才能找到其内在规律。4大数据的挖掘和处理。大数据必然无法用人脑来推算、估测,或者用单台的计算机进行处理,必须采用分布式计算架构,依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术,因此,大数据的挖掘和处理必须用到云技术。5大数据的应用。大数据可应用于各行各业,将人们收集到的庞大数据进行分析整理,实现资讯的有效利用。举个本专业的例子,比如在奶牛基因层面寻找与产奶量相关的主效基因,我们可以首先对奶牛全基因组进行扫描,尽管我们获得了所有表型信息和基因信息,但是由于数据量庞大,这就需要采用大数据技术,进行分析比对,挖掘主效基因。例子还有很多。6大数据的意义和前景。总的来说,大数据是对大量、动态、能持续的数据,通过运用新系统、新工具、新模型的挖掘,从而获得具有洞察力和新价值的东西。以前,面对庞大的数据,我们可能会一叶障目、可见一斑,因此不能了解到事物的真正本质,从而在科学工作中得到错误的推断,而大数据时代的来临,一切真相将会展现在我么面前。7大数据对经济社会的重要影响1、能够推动实现巨大经济效益比如对中国零售业净利润增长的贡献,降低制造业产品开发、组装成本等。预计2013年全球大数据直接和间接拉动信息技术支出将达1200亿美元。2、能够推动增强社会管理水平大数据在公共服务领域的应用,可有效推动相关工作开展,提高相关部门的决策水平、服务效率和社会管理水平,产生巨大社会价值。欧洲多个城市通过分析实时采集的交通流量数据,指导驾车出行者选择最佳路径,从而改善城市交通状况。3、如果没有高性能的分析工具,大数据的价值就得不到释放对大数据应用必须保持清醒认识,既不能迷信其分析结果,也不能因为其不完全准确而否定其重要作用。1) 由于各种原因,所分析处理的数据对象中不可避免地会包括各种错误数据、无用数据,加之作为大数据技术核心的数据分析、人工智能等技术尚未完全成熟,所以对 计算机完成的大数据分析处理的结果,无法要求其完全准确。例如,谷歌通过分析亿万用户搜索内容能够比专业机构更快地预测流感暴发,但由于微博上无用信息的 干扰,这种预测也曾多次出现不准确的情况。2)必须清楚定位的是,大数据作用与价值的重点在于能够引导和启发大数据应用者的创新思维,辅助决策。简单而言,若是处理一个问题,通常人能够想到一种方法,而大数据能够提供十种参考方法,哪怕其中只有三种可行,也将解决问题的思路拓展了三倍。所以,客观认识和发挥大数据的作用,不夸大、不缩小,是准确认知和应用大数据的前提。END经验内容仅供参考,如果您需解决具体问题(尤其法律、医学等领域),建议您详细咨询相关领域专业人士。作者声明:本篇经验系本人依照真实经历原创,未经许可,谢绝转载。投票(0)已投票(0)有得(0)我有疑问(0)◆◆说说为什么给这篇经验投票吧!我为什么投票...你还可以输入500字◆◆非回享用户暂时不能发布经验“有得”&你还可以输入1000字◆◆如对这篇经验有疑问,可反馈给作者,经验作者会尽力为您解决!你还可以输入500字相关经验00001热门杂志第1期你不知道的iPad技巧3530次分享第1期win7电脑那些事6192次分享第2期新人玩转百度经验1217次分享第1期Win8.1实用小技巧2538次分享第1期小白装大神1721次分享◆请扫描分享到朋友圈}

我要回帖

更多关于 什么是大数据举例说明 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信