海量数据存储解决方案的存储技术属于大数据的关键技术吗

中国领先的IT技术网站
51CTO旗下网站
大数据关键技术解析
大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。
作者:来源:博客| 13:54
大数据技术,就是从各种类型的数据中快速获得有价值信息的技术。大数据领域已经涌现出了大量新的技术,它们成为大数据采集、存储、处理和呈现的有力武器。
大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。
一、大数据采集技术
数据采集是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。
大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。
二、大数据预处理技术
主要完成对已接收数据的辨析、抽取、清洗等操作。1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤&去噪&从而提取出有效数据。
三、大数据存储及管理技术
大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。
开发新型数据库技术,数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。
开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。
四、大数据分析及挖掘技术
大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网W根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。
从挖掘任务和挖掘方法的角度,着重突破:1.可视化分析。数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。2.数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。3.预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。4.语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。5.数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。
五、大数据展现与应用技术
大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。
【编辑推荐】【责任编辑: TEL:(010)】
大家都在看猜你喜欢
头条头条原创头条头条
24H热文一周话题本月最赞
讲师:5人学习过
讲师:31人学习过
讲师:5人学习过
精选博文论坛热帖下载排行
本书是一本以示例形式直接面向应用的网络管理图书。书中以大量示例和大量实用网络管理与故障排除经验介绍了当前网络管理工作的各主要方面。...
订阅51CTO邮刊大数据处理的关键技术中的“大数据的预处理技术”是什么?因为大数据的体量非常的庞大,我们在分析和处理这些数据之前,首先要对已接收的数据进行辩析、清洗和清理,在辩定了数据的真伪和分析了数据的有效性和完整性之后,这些数据才会归集成为下一步分析真正的有效数据。 大数据处理的关键技术中的“大数据的存储与管理技术”是什么?在大数据的应用领域里,比较出名的海量文件存储技术,有Google的GFS和Hadoop的HDFS,它们都是采用分布式的主存控制模式来存储和管理数据,主节点存储元数据,从节点存储数据,在存储方案中,对应的一份数据至少在不同的节点上存储三份备份,这样才能提高系统的容错性。 大数据处理的关键技术中的“大数据的分析与挖掘技术”是什么?我们简单的理解是,基于MAPREDUCE技术生态的一种大数据并行处理方式,解决的数据处理时的交互问题。
大数据处理的关键技术中的“大数据的预处理技术”是什么?因为大数据的体量非常的庞大,我们在分析和处理这些数据之前,首先要对已接收的数据进行辩析、清洗和清理,在辩定了数据的真伪和分析了数据的有效性和完整性之后,这些数据才会归集成为下一步分析真正的有效数据。
大数据处理的关键技术中的“大数据的存储与管理技术”是什么?在大数据的应用领域里,比较出名的海量文件存储技术,有Google的GFS和Hadoop的HDFS,它们都是采用分布式的主存控制模式来存储和管理数据,主节点存储元数据,从节点存储数据,在存储方案中,对应的一份数据至少在不同的节点上存储三份备份,这样才能提高系统的容错性。
大数据处理的关键技术中的“大数据的分析与挖掘技术”是什么?我们简单的理解是,基于MAPREDUCE技术生态的一种大数据并行处理方式,解决的数据处理时的交互问题。
[责任编辑:云计算与大数据的关键技术及应用;何维坤云计算被认为是继个人电;对于大数据还没有一个正式的定义,目前最为普遍的定;云计算关键技术主要包括四个方面:;1.云平台服务优化管理技术;2.云计算应用构建与集成技术;3.云计算应用系统持续运行技术;4.云计算多模式客户端技术;大数据并非一项技术,其前身是商务智能BI;数据采集主要是从本地数据库、互联网
云计算与大数据的关键技术及应用
何维坤 云计算被认为是继个人电脑、互联网之后电子信息技术领域又一次重大变革,其通过虚拟化有效地聚合各类资源,通过网络化按需供给资源,通过专业化提供丰富的应用服务,这种新型的计算资源组织、分配和使用模式,有利于合理配置计算资源并提高利用率、降低成本、促进节能减排,实现绿色计算。云计算发展的技术基础主要包括互联网、网络计算、虚拟化技术、服务计算,以及按需付费机制。其目的是为用户提供基于虚拟化技术的按需服务,提供形式主要分为基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。依据底层基础设施提供者与使用者的所属关系,云计算平台可以分为公共云、私有云和混合云。
对于大数据还没有一个正式的定义,目前最为普遍的定义就是“用传统方法或工具不能处理或分析的数据”。大数据具有大量、速度快和多样性三大特征,这些特征是传统数据处理方法和工具所无法胜任的。
云计算关键技术主要包括四个方面:
1.云平台服务优化管理技术。服务优化管理是提高云平台服务质量和平台性能的关键问题。其关键技术包括:云服务资源管理,研究物理机、虚拟机与虚拟集群的按需管理和分区隔离机制;云任务管理,研究云计算任务的分类、高效调度、负载平衡、功耗管理与容错等;云数据管理,研究大规模结构化、非结构化和多媒体数据的建模、组织、存储、操纵、检索、备份和保护以及数据服务技术;应用行为分析与系统测评,研究云计算负载刻画、云任务运行监控与云系统评测的度量方法和基准程序集合;云安全及隐私保护,研究支持不同用户的功能、性能和故障隔离,支持用户身份和用户数据的隐私保护,提供政府监督管接口等;
2.云计算应用构建与集成技术。云计算应用构建与集成技术是为行为用户提供服务的关键。关键技术包括应用服务化、应用虚拟化、应用服务集成技术;
3.云计算应用系统持续运行技术。为了支持企业的关键业务,云计算平台应用系统的持续运行是基本需求,因此需要研究云计算应用系统的持续运行 技术,主要研究:云计算平台物理资源和虚拟化资源的动态监控技术、云计算平台服务监控技术、云计算应用和用户活动的监控技术;基于监控的故障评测、异常处理、容错及恢复机制,软件服务无缝迁移技术等;计算系统持续运行技术,研究云计算平台中虚拟机的出错迁移机制、虚拟化集群的容错机制、虚拟机安全机制等;
4.云计算多模式客户端技术。网络时代的计算以数据、用户和服务为3大中心,云端共存、云端互动是未来计算架构发展趋势。云客户端既包括传统的PC机、笔记本,也包括手机、PDA、汽车移动终端和家电终端等智能移动设备。主要研究多种形态的云客户端 接入技术、多模式客户端服务环境。面向云计算典型行业应用需求,需要研制多种形态,支持三网融合的轻量级云客户端接入技术,为用户提供简单易用的云计算服务;面向典型行业应用众多用户的个性化需求,研究多模式的客户端自适应云服务软件环境。
大数据并非一项技术,其前身是商务智能BI。大数据是一系列信息技术的集合,包括数据采集、数据管理、计算处理、数据分析和数据展现5个关键技术环节。其中,数据管理、计算处理和数据分析3个环节的变革较大。
数据采集主要是从本地数据库、互联网、物联网等数据源导入数据,包括数
据的提取、转换和加载。由于数据源不一样,数据采集的技术体系也不尽相同。其面临的挑战主要来自两方面,一是如何自动实现对接收的海量数据按照特定策略进行过滤,从而大幅度降低后续存储和处理的压力;二是如何自动生成元数据,准确描述数据出处,获得途径和环境等背景信息,并且将企业内部的数据与互联网的元数据相关联,进行多维元数据分析。不同行业对于元数据的录制要求不尽相同。
大数据对存储管理技术的挑战主要在于扩展性。首先是容量上的扩展,要求底层存储架构和文件系统以低沉本的方式及时按需扩展存储空间。传统的NAS、SAN 等存储架构下,存储和计算分离,进行数据计算时I/O容易成为瓶颈,文件系统也存在吞吐量和可扩展性差的问题。新的以谷歌GFS和Hadoop HDFS为代表的系统中,普遍采用了分布式的存储架构,使得计算和存储节点合一,消除了I/O瓶颈,文件系统也采用分布式并行设计。但GFS/HDFS主要针对大文件的追加(Append)写入和读取进行了优化。下一步的重点是突破GFS/HDFS在写操作、小文件存取等方面的性能瓶颈,设计新的文件系统。其次是数据格式可扩展,满足各种非结构化数据的管理需求。
对大数据进行分析处理要消耗大量的计算资源,这对计算的速度和成本都提出了更高要求。采用并行计算是应对大计算量的普遍做法。但传统的并行计算系统,一般由专用的性能强大的硬件构成,造价昂贵,若想提高系统性能,需要采取纵向扩展(Scale Up)的方式,即通过提升单机CPU性能、增加内存、扩展磁盘等达到性能提升。这种扩展容易达到瓶颈,难以支撑持续的计算能力扩展,而且成本很高。总结起来,下一步大数据计算技术的主要方向将集中在研发实时性高的大规模并行处理技术上,以支撑超大规模机器学习、超大规模流量计算等实时分析需求。
当前大数据分析技术面临的挑战,一方面是要对结构化和半结构化数据开展深度分析,另一方面是要开发非结构化数据的宝藏,从而将海量复杂多源的数据转化为有用的知识。
数据展现主要是如何以更直观和互动的方式展示分析结果,便于人们理解。大数据的分析系统必须提供数据来源、分析过程、查询机制等一系列信息,并以可视化的方式呈现出来。目前,可视化技术多与Web技术相结合,以图形或图像的格式呈现,比如SVG一系列的绘图技术和最新的 HTML5 的画布&canvas&等。未来三维动态呈现是趋势。
大数据与云计算相结合所释放出的巨大能力,几乎将波及到所有的行业,而信息、互联
网和通信产业将首当其冲。特别是通信业,在传统话音业务低值化、增值业务互联网化的趋势中,大数据与云计算有望成为其加速转型的动力和途径,将在五大领域带来新的机会。
1.提高网络服务质量。随着互联网和移动互联网的发展,运营商的网络将会更加繁忙,用于监测网络状态的信令数据也会快速增长。通过大数据的海量分布式存储技术,可以更好地满足存储需求;通过智能分析技术,能够提高网络维护的实时性,预测网络流量峰值,预警异常流量,有效防止网络堵塞和宕机,为网络改造、优化提供参考,从而提高网络服务质量,提升用户体验。
2.更加精准的客户洞察
客户洞察是指在企业或部门层面对客户数据的全面掌握并在市场营销、客户联系等环节的有效应用。通过使用大数据分析、数据挖掘等工具和方法,电信运
营商能够整合来自市场部门、销售部门、服务部门的数据,从各种不同的角度全面了解自己的客户,对客户形象进行精准刻画,以寻找目标客户,制定有针对性的营销计划、产品组合或商业决策,提升客户价值。判断客户对企业产品、服务的感知,有针对性的进行改进和完善。通过情感分析、语义分析等技术,可以针对客户的喜好、情绪,进行个性化的业务推荐。
3.提升行业信息化服务水平
智慧城市的发展以及教育、医疗、交通、环境保护等关系到国计民生的行业,都具有极大的信息化需求。目前,电信运营商针对智慧城市及行业信息化服务虽然能够提供一揽子解决方案,但主要还是提供终端和通信管道,行业应用软件和系统集成尚需要整合外部的应用软件提供商,对于用户的价值主要体现在网络化、自动化等较低水平。而随着社会、经济的发展,用户及用户的用户对于智能化的要求将逐步强烈,因此运营商如能把大数据技术整合到行业信息化方案中,帮助用户通过数据采集、存储和分析更好地进行决策,将能极大提升论文集 宽带中国战略与创新学术研讨会信息化服务的价值。
4.基于云的数据分析服务
大数据和云计算相结合,使得数据分析也可以作为一种服务进行提供。电信运营商目前的云计算服务,主要还是以提供数据中心等资源为主。下一步,电信运营商可以在数据中心的基础上,搭建大数据分析平台,通过自己采集、第三方提供等方式汇聚数据,并对数据进行分析,为相关企业提供分析报告。
5.保障数据安全
大数据也有大风险,其中之一就是用户隐私泄露及数据安全风险。由于大量的数据产生、存储和分析,数据保密和隐私问题将在未来几年内成为一个更大的问题,企业必须尽快开始研究新的数据保护措施。而电信运营商在网络安全、数据中心安全等方面具有优势,如能以此为基础,建立整个大数据领域的安全保障优势,必将从大数据的发展中获益匪浅。
云计算大数据时代的到来使得全社会日益成为一个整体,在这一体系中个人隐私的保护已经成为社会信用体系建设的重要基础。我们在鼓励创新和进步的同时必须清醒地看到,无论美国还是任何国家对云计算大数据的使用和公开都是有选择、有目的的,不是无原则地开放,这不仅是受到法律和规则的限制,也与一个国家的整体发展规划和全球战略密切相关。我们在保护个人隐私方面所做的努力不仅是对每个社会成员的保护,更是对国家安全和社会长期持续健康发展的保护。
三亿文库包含各类专业文献、文学作品欣赏、专业论文、生活休闲娱乐、应用写作文书、行业资料、外语学习资料、幼儿教育、小学教育、中学教育、云计算与大数据的关键技术及应用01等内容。 
 云计算与大数据课程项目设计任务书一、题目简介 近几年,随着新技术的出现和发展,尤其是云计算技术的出现,以及大数据 的运用, 对网络技术带来了革命的转变,学校...  云计算和大数据知识简介_计算机软件及应用_IT/计算机_专业资料。云计算和大数据...将云计算定位为构建国家级信息基础设施、实现融合 创新的关键技术和重点发展方向...  云计算和大数据的关系_计算机软件及应用_IT/计算机_专业资料。云计算和大数据的...大数据本质也是数据,其关键的技术依然逃不脱: 1)大数据存储和管理; 2)大数据...  大数据与云计算(论文)_互联网_IT/计算机_专业资料。大数据与云计算摘要:近年来,大数据和云计算已经成为社会各界关注的热点话题。秉承“按需服务”理念 的“云...  云计算和大数据基础知识_计算机软件及应用_IT/计算机_专业资料。云计算和大数据...*核心技术: ①最关键的代码基础是基本 RPC、线程和控制流函数库的实现 ②主要...  云计算和大数据的区别_计算机软件及应用_IT/计算机_专业资料。关于大数据和云计算...(Hadoop 商业化最强的公司,Hadoop 之父 cutting 就在这里负责技术 领导)的 ...  大数据与云计算 云计算和大数据是一个硬币的两面大数据正在引发全球范围内深刻的技术和商业变革如同 云计算的出现, 大数据也不是一个突然而至的新概念。 “云...  强化大数据、云计算技术审计应用的措施包括制定长远发展战略、 加快审计法规建设、建立行业平台、加强研发和提高利用能力。 关键词:大数据 云计算 数据挖掘 对审计...  大数据技术与云计算_计算机软件及应用_IT/计算机_专业资料。大数据技术与云计算想要系统的认知大数据,必须要全面而细致的分解它,一般从三个层面来展开:第一层 面...比特客户端
您的位置:
详解大数据
详解大数据
详解大数据
详解大数据
云计算是采用分布式存储技术存储数据
  近些年来,托管、后向收费、按需交付等商业模式的演进也加速了市场的转折。云计算不仅改变了信息提供的方式,也颠覆了传统ICT系统的交付模式。与其说云计算是技术的创新,不如说云计算是思维和商业模式的转变。
  下面详细谈一谈云计算的核心技术。
  云计算是一种以数据和处理能力为中心的密集型计算模式,它融合了多项ICT技术,是传统技术“平滑演进”的产物。其中以技术、分布式数据技术、编程模型、大规模数据管理技术、分布式资源管理、、云计算平台管理技术、技术最为关键。
  云计算的研究报告
  年中国云计算行业全景调研与发展战略年中国云计算市场调研分析及发展咨询年中国云计算行业全景调研与发展战略年云计算行业风险投资态势及投策年云计算产品定位及价格策略专项调研年中国云计算行业深度调研与投资前景年中国云计算行业市场全景调研与竞争年中国云计算行业商业模式与投资策略  1、虚拟化技术
  虚拟化是云计算最重要的核心技术之一,它为云计算服务提供基础架构层面的支撑,是ICT服务快速走向云计算的最主要驱动力。可以说,没有虚拟化技术也就没有云计算服务的落地与成功。随着云的持续升温,业内对虚拟化技术的重视也提到了一个新的高度。与此同时,我们的调查发现,很多人对云计算和虚拟化的认识都存在误区,认为云计算就是虚拟化。事实上并非如此,虚拟化是云计算的重要组成部分但不是全部。
  从技术上讲,虚拟化是一种在软件中仿真计算机硬件,以虚拟资源为用户提供服务的计算形式。旨在合理调配计算机资源,使其更高效地提供服务。它把应用系统各硬件间的物理划分打破,从而实现架构的动态化,实现物理资源的集中管理和使用。虚拟化的最大好处是增强系统的弹性和灵活性,降低成本、改进服务、提高资源利用效率。
  从表现形式上看,虚拟化又分两种应用模式。一是将一台性能强大的虚拟成多个独立的小服务器,服务不同的用户。二是将多个服务器虚拟成一个强大的服务器,完成特定的功能。这两种模式的核心都是统一管理,动态分配资源,提高资源利用率。在云计算中,这两种模式都有比较多的应用。
  2、分布式数据存储技术
  云计算的另一大优势就是能够快速、高效地处理海量数据。在数据爆炸的今天,这一点至关重要。为了保证数据的高可靠性,云计算通常会采用技术,将数据存储在不同的物理设备中。这种模式不仅摆脱了硬件设备的限制,同时扩展性更好,能够用户需求的变化。
  分布式存储与传统的网络存储并不完全一样,传统的网络采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,不能满足大规模存储应用的需要。分布式网络存储系统采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。
  在当前的云计算领域,的GFS和开发的开源系统HDFS是比较流行的两种云计算分布式存储系统。
  GFS(GoogleFileSystem)技术:的非开源的GFS(GoogleFileSystem)云计算平台满足大量用户的需求,并行地为大量用户提供服务。使得云计算的数据存储技术具有了高吞吐率和高传输率的特点。
  HDFS(HadoopDistributedFileSystem)技术:大部分ICT厂商,包括Yahoo、的“云”计划采用的都是HDFS的数据存储技术。未来的发展将集中在超大规模的数据存储、数据加密和安全性保证、以及继续提高I/O速率等方面。
  3、编程模式
  从本质上讲,云计算是一个多用户、多任务、支持并发处理的系统。高效、简捷、快速是其核心理念,它旨在通过网络把强大的服务器计算资源方便地分发到终端用户手中,同时保证低成本和良好的用户体验。在这个过程中,编程模式的选择至关重要。云计算项目中分布式并行编程模式将被广泛采用。
  分布式并行编程模式创立的初衷是更高效地利用软、硬件资源,让用户更快速、更简单地使用应用或服务。在分布式并行编程模式中,后台复杂的任务处理和资源调度对于用户来说是透明的,这样用户体验能够大大提升。MapReduce是当前云计算主流并行编程模式之一。MapReduce模式将任务自动分成多个子任务,通过Map和Reduce两步实现任务在大规模计算节点中的高度与分配。
  MapReduce是Google开发的java、Python、C++编程模型,主要用于大规模数据集(大于1TB)的并行运算。MapReduce模式的思想是将要执行的问题成Map(映射)和Reduce(化简)的方式,先通过Map程序将数据切割成不相关的区块,分配(调度)给大量计算机处理,达到分布式运算的效果,再通过Reduce程序将结果汇整输出。
  4、大规模数据管理
  处理海量数据是云计算的一大优势。那么如何处理则涉及到很多层面的东西,因此高效的数据处理技术也是云计算不可或缺的核心技术之一。对于云计算来说,数据管理面临巨大的挑战。云计算不仅要保证数据的存储和访问,还要能够对海量数据进行特定的检索和分析。由于云计算需要对海量的分布式数据进行处理、分析,因此,数据管理技术必需能够高效的管理大量的数据。
  Google的BT(BigTable)数据管理技术和Hadoop团队开发的开源数据管理HBase是业界比较典型的大规模数据管理技术。
  BT(BigTable)数据管理技术:BigTable是非关系的,是一个分布式的、持久化存储的多维度排序Map.BigTable建立在GFS,Scheduler,LockService和MapReduce之上,与传统的关系数据库不同,它把所有数据都作为对象来处理,形成一个巨大的表格,用来分布存储大规模结构化数据。Bigtable的设计目的是可靠的处理PB级别的数据,并且能够部署到上千台机器上。
  开源数据管理模块HBase:HBase是Apache的Hadoop项目的子项目,定位于分布式、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。作为高可靠性分布式存储系统,HBase在性能和可伸缩方面都有比较好的表现。利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。
  5、分布式资源管理
  云计算采用了分布式存储技术存储数据,那么自然要引入分布式资源管理技术。在多节点的并发执行环境中,各个节点的状态需要同步,并且在单个节点出现故障时,系统需要有效的机制保证其它节点不受影响。而分布式资源管理系统恰是这样的技术,它是保证系统状态的关键。
  另外,云计算系统所处理的资源往往非常庞大,少则几百台服务器,多则上万台,同时可能跨跃多个地域。且云平台中运行的应用也是数以千计,如何有效地管理这批资源,保证它们正常提供服务,需要强大的技术支撑。因此,分布式资源管理技术的重要性可想而知。
  全球各大云计算/服务提供商们都在积极开展相关技术的研发工作。其中Google内部使用的Borg技术很受业内称道。另外,、、/等云计算巨头都有相应解决方案提出。
  6、信息安全
  调查数据表明,安全已经成为阻碍云计算发展的最主要原因之一。数据显示,32%已经使用云计算的组织和45%尚未使用云计算的组织的ICT管理将作为进一步部署云的最大障碍。因此,要想保证云计算能够长期稳定、快速发展,安全是首要需要解决的问题。
  事实上,云计算安全也不是新问题,传统存在同样的问题。只是云计算出现以后,安全问题变得更加突出。在云计算体系中,安全涉及到很多层面,包括网络安全、服务器安全、软件安全、系统安全等等。因此,有分析师认为,云安全产业的发展,将把传统安全技术提到一个新的阶段。
  现在,不管是软件安全厂商还是硬件安全厂商都在积极研发云计算安全产品和方案。包括传统厂商、软硬厂商、/厂商在内的各个层面的安全供应商都已加入到云安全领域。相信在不久的将来,云安全问题将得到很好的解决。
  7、云计算平台管理
  云计算资源规模庞大,服务器数量众多并分布在不同的地点,同时运行着数百种应用,如何有效地管理这些服务器,保证整个系统提供不间断的服务是巨大的挑战。云计算系统的平台管理技术,需要具有高效调配大量服务器资源,使其更好协同工作的能力。其中,方便地部署和开通新业务、快速发现并且恢复系统故障、通过、智能化手段实现大规模系统可靠的运营是云计算平台管理技术的关键。
  对于提供者而言,云计算可以有三种部署模式,即公共云、私有云和混合云。三种模式对平台管理的要求大不相同。对于用户而言,由于对于ICT资源共享的控制、对系统效率的要求以及ICT成本投入预算不尽相同,企业所需要的云计算系统规模及可管理性能也大不相同。因此,云计算平台管理方案要更多地考虑到定制化需求,能够满足不同场景的应用需求。
  包括Google、IBM、微软、Oracle/Sun等在内的许多厂商都有云计算平台管理方案推出。这些方案能够帮助企业实现基础架构整合、实现企业硬件资源和软件资源的统一管理、统一分配、统一部署、统一监控和统一备份,打破应用对资源的独占,让企业云计算平台价值得以充分发挥。
  8、绿色技术
  节能环保是全球整个时代的大主题。云计算也以低成本、高效率着称。云计算具有巨大的规模经济效益,在提高资源利用效率的同时,节省了大量能源。绿色节能技术已经成为云计算必不可少的技术,未来越来越多的节能技术还会被引入云计算中来。
  CarbonDisclosureProject(碳排放披露项目,简称)近日发布了一项有关云计算有助于减少碳排放的研究报告。报告指出,迁移至云的美国公司每年就可以减少碳排放8570万吨,这相当于2亿桶石油所排放出的碳总量。
  总之,云计算服务提供商们需要持续改善技术,让云计算更绿色。
[ 责任编辑:qc ]
去年,手机江湖里的竞争格局还是…
甲骨文的云战略已经完成第一阶段…
软件信息化周刊
比特软件信息化周刊提供以数据库、操作系统和管理软件为重点的全面软件信息化产业热点、应用方案推荐、实用技巧分享等。以最新的软件资讯,最新的软件技巧,最新的软件与服务业内动态来为IT用户找到软捷径。
商务办公周刊
比特商务周刊是一个及行业资讯、深度分析、企业导购等为一体的综合性周刊。其中,与中国计量科学研究院合力打造的比特实验室可以为商业用户提供最权威的采购指南。是企业用户不可缺少的智选周刊!
比特网络周刊向企业网管员以及网络技术和产品使用者提供关于网络产业动态、技术热点、组网、建网、网络管理、网络运维等最新技术和实用技巧,帮助网管答疑解惑,成为网管好帮手。
服务器周刊
比特服务器周刊作为比特网的重点频道之一,主要关注x86服务器,RISC架构服务器以及高性能计算机行业的产品及发展动态。通过最独到的编辑观点和业界动态分析,让您第一时间了解服务器行业的趋势。
比特存储周刊长期以来,为读者提供企业存储领域高质量的原创内容,及时、全面的资讯、技术、方案以及案例文章,力求成为业界领先的存储媒体。比特存储周刊始终致力于用户的企业信息化建设、存储业务、数据保护与容灾构建以及数据管理部署等方面服务。
比特安全周刊通过专业的信息安全内容建设,为企业级用户打造最具商业价值的信息沟通平台,并为安全厂商提供多层面、多维度的媒体宣传手段。与其他同类网站信息安全内容相比,比特安全周刊运作模式更加独立,对信息安全界的动态新闻更新更快。
新闻中心热点推荐
新闻中心以独特视角精选一周内最具影响力的行业重大事件或圈内精彩故事,为企业级用户打造重点突出,可读性强,商业价值高的信息共享平台;同时为互联网、IT业界及通信厂商提供一条精准快捷,渗透力强,覆盖面广的媒体传播途径。
云计算周刊
比特云计算周刊关注云计算产业热点技术应用与趋势发展,全方位报道云计算领域最新动态。为用户与企业架设起沟通交流平台。包括IaaS、PaaS、SaaS各种不同的服务类型以及相关的安全与管理内容介绍。
CIO俱乐部周刊
比特CIO俱乐部周刊以大量高端CIO沙龙或专题研讨会以及对明星CIO的深入采访为依托,汇聚中国500强CIO的集体智慧。旨为中国杰出的CIO提供一个良好的互融互通 、促进交流的平台,并持续提供丰富的资讯和服务,探讨信息化建设,推动中国信息化发展引领CIO未来职业发展。
IT专家新闻邮件长期以来,以定向、分众、整合的商业模式,为企业IT专业人士以及IT系统采购决策者提供高质量的原创内容,包括IT新闻、评论、专家答疑、技巧和白皮书。此外,IT专家网还为读者提供包括咨询、社区、论坛、线下会议、读者沙龙等多种服务。
X周刊是一份IT人的技术娱乐周刊,给用户实时传递I最新T资讯、IT段子、技术技巧、畅销书籍,同时用户还能参与我们推荐的互动游戏,给广大的IT技术人士忙碌工作之余带来轻松休闲一刻。
微信扫一扫
关注Chinabyte}

我要回帖

更多关于 hadoop海量数据存储 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信