大数据需要掌握的技术技术哪个最好

点击联系发帖人 时间：2017-12-28 14:53

大数据采集技术

6个用于大数据处理分析的最好工具-技术博客-@大数据资讯
你好，游客
6个用于大数据处理分析的最好工具
来源：OPEN咨询&
作者：jopen
　　是一个含义广泛的术语，是指数据集，如此庞大而复杂的，他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源：传感器，气候信息，公开的信息，如杂志，报纸，文章。大数据产生的其他例子包括购买交易记录，网络日志，病历，军事监控，视频和图像档案，及大型电子商务。
　　在大数据和大，他们对企业的影响有一个兴趣高涨。大数据分析是研究大量的数据的过程中寻找模式，相关性和其他有用的信息，可以帮助企业更好地适应变化，并做出更明智的决策。
　　Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的，因为它假设计算元素和存储会失败，因此它维护多个工作数据副本，确保能够针对失败的节点重新分布处理。Hadoop 是高效的，因为它以并行的方式工作，通过并行处理加快处理速度。Hadoop 还是可伸缩的，能够处理 PB 级数据。此外，Hadoop 依赖于社区服务器，因此它的成本比较低，任何人都可以使用。
　　Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点：
　　⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
　　⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中。
　　⒊高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快。
　　⒋高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配。
　　Hadoop带有用 Java 语言编写的框架，因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写，比如 C++。
　　二、HPCC
　　HPCC，High Performance Computing and Communications(高性能计算与通信)的缩写。1993年，由美国科学、工程、技术联邦协调理事会向国会提交了&重大挑战项目：高性能计算与通信&的报告，也就是被称为HPCC计划的报告，即美国总统科学战略项目，其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划，该计划的实施将耗资百亿美元，其主要目标要达到：开发可扩展的计算系统及相关软件，以支持太位级网络传输性能，开发千兆比特网络技术，扩展研究和教育机构及网络连接能力。
　　该项目主要由五部分组成：
　　1、高性能计算机系统(HPCS)，内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;
　　2、先进软件技术与算法(ASTA)，内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;
　　3、国家科研与教育网格(NREN)，内容有中接站及10亿位级传输的研究与开发;
　　4、基本研究与人类资源(BRHR)，内容有基础研究、培训、教育及课程教材，被设计通过奖励调查者-开始的，长期的调查在可升级的高性能计算中来增加创新意识流，通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营，和来提供必需的基础架构来支持这些调查和研究活动;
　　5、信息基础结构技术和应用(IITA )，目的在于保证美国在先进信息技术开发方面的领先地位。
　　三、Storm
　　Storm是自由的开源软件，一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流，用于处理Hadoop的批量数据。Storm很简单，支持许多种编程语言，使用起来非常有趣。Storm由Twitter开源而来，其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、 Admaster等等。
　　Storm有许多应用领域：实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议，一种通过网络从远程计算机程序上请求服务)、 ETL(Extraction-Transformation-Loading的缩写，即数据抽取、转换和加载)等等。Storm的处理速度惊人：经测试，每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错，很容易设置和操作。
　　四、Apache Drill
　　为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法，Apache软件基金会近日发起了一项名为&Drill&的开源项目。Apache Drill 实现了 Google's Dremel.
　　据Hadoop厂商MapR Technologies公司产品经理Tomer Shiran介绍，&Drill&已经作为Apache孵化器项目来运作，将面向全球软件工程师持续推广。
　　该项目将会创建出开源版本的谷歌Dremel Hadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而&Drill&将有助于Hadoop用户实现更快查询海量数据集的目的。
　　&Drill&项目其实也是从谷歌的Dremel项目中获得灵感：该项目帮助谷歌实现海量数据集的分析处理，包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。
　　通过开发&Drill&Apache开源项目，组织机构将有望建立Drill所属的API接口和灵活强大的体系架构，从而帮助支持广泛的数据源、数据格式和查询语言。
　　五、RapidMiner
　　RapidMiner是世界领先的解决方案，在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛，包括各种数据艺术，能简化数据挖掘过程的设计和评价。
　　功能和特点
　　免费提供数据挖掘技术和库
　　100%用Java代码(可运行在操作系统)
　　数据挖掘过程简单，强大和直观
　　内部XML保证了标准化的格式来表示交换数据挖掘过程
　　可以用简单脚本语言自动进行大规模进程
　　多层次的数据视图，确保有效和透明的数据
　　图形用户界面的互动原型
　　命令行(批处理模式)自动大规模应用
　　Java API(应用编程接口)
　　简单的插件和推广机制
　　强大的可视化引擎，许多尖端的高维数据的可视化建模
　　400多个数据挖掘运营商支持
　　耶鲁大学已成功地应用在许多不同的应用领域，包括文本挖掘，多媒体挖掘，功能设计，数据流挖掘，集成开发的方法和分布式数据挖掘。
　　六、 Pentaho BI
　　Pentaho BI 平台不同于传统的BI 产品，它是一个以流程为中心的，面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来，方便商务智能应用的开发。它的出现，使得一系列的面向商务智能的独立产品如Jfree、Quartz等等，能够集成在一起，构成一项项复杂的、完整的商务智能解决方案。
　　Pentaho BI 平台，Pentaho Open BI 套件的核心架构和基础，是以流程为中心的，因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI 平台上执行的商业智能流程。流程可以很容易的被定制，也可以添加新的流程。BI 平台包含组件和报表，用以分析这些流程的性能。目前，Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过 J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。 Pentaho的发行，主要以Pentaho SDK的形式进行。
　　Pentaho SDK共包含五个部分：Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的 Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分，囊括了Pentaho平台源代码的主体;Pentaho数据库为 Pentaho平台的正常运行提供的数据服务，包括配置信息、Solution相关的信息等等，对于Pentaho平台来说它不是必须的，通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例，它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;Pentaho解决方案示例是一个Eclipse工程，用来演示如何为Pentaho平台开发相关的商业智能解决方案。
　　Pentaho BI 平台构建于服务器，引擎和组件的基础之上。这些提供了系统的J2EE 服务器，安全，portal，工作流，规则引擎，图表，协作，内容管理，数据集成，分析和建模功能。这些组件的大部分是基于标准的，可使用其他产品替换之。
相关新闻 & & &
　　　同意评论声明
　　　发表
尊重网上道德，遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款新手园地& & & 硬件问题Linux系统管理Linux网络问题Linux环境编程Linux桌面系统国产LinuxBSD& & & BSD文档中心AIX& & & 新手入门& & & AIX文档中心& & & 资源下载& & & Power高级应用& & & IBM存储AS400Solaris& & & Solaris文档中心HP-UX& & & HP文档中心SCO UNIX& & & SCO文档中心互操作专区IRIXTru64 UNIXMac OS X门户网站运维集群和高可用服务器应用监控和防护虚拟化技术架构设计行业应用和管理服务器及硬件技术& & & 服务器资源下载云计算& & & 云计算文档中心& & & 云计算业界& & & 云计算资源下载存储备份& & & 存储文档中心& & & 存储业界& & & 存储资源下载& & & Symantec技术交流区安全技术网络技术& & & 网络技术文档中心C/C++& & & GUI编程& & & Functional编程内核源码& & & 内核问题移动开发& & & 移动开发技术资料ShellPerlJava& & & Java文档中心PHP& & & php文档中心Python& & & Python文档中心RubyCPU与编译器嵌入式开发驱动开发Web开发VoIP开发技术MySQL& & & MySQL文档中心SybaseOraclePostgreSQLDB2Informix数据仓库与数据挖掘NoSQL技术IT业界新闻与评论IT职业生涯& & & 猎头招聘IT图书与评论& & & CU技术图书大系& & & Linux书友会二手交易下载共享Linux文档专区IT培训与认证& & & 培训交流& & & 认证培训清茶斋投资理财运动地带快乐数码摄影& & & 摄影器材& & & 摄影比赛专区IT爱车族旅游天下站务交流版主会议室博客SNS站务交流区CU活动专区& & & Power活动专区& & & 拍卖交流区频道交流区
论坛徽章:3
获奖公布：
1.最佳优胜奖（SACC 2017大会门票一张）：
2.获得技术图书《大数据之路阿里巴巴大数据实践》：
请以上6位获奖人员在9月30日前将姓名、电话、邮箱、公司、职务、快递地址站短给&&yejia ，以便尽快给大家发放礼品。
话题背景：
大数据是什么？在过去的 5年里，恐怕没有另外一个词比大数据更高频；也没有另外一个概念如大数据一样，被纷繁解读，著书立说。
如果说互联网实现了人人互联和通信，并没有深度地协同计算，那么这样的一个大数据平台和架构就是一张升级的、智能的互联网。这是人类自己设计出来的复杂的信息处理系统，同时也将是真正意义上人类智力大联合的基础设施。这是一个伟大的蓝图，我们敬畏其复杂度和潜能。
在阿里巴巴集团内，数据人员面临的现实情况是：集团数据存储已经达到EB级别，部分单张表每天的数据记录数高达几千亿条；在2016年“双11购物狂欢节”的24小时中，支付金额达到了1207亿元人民币，支付峰值高达12万笔/秒，下单峰值达17.5万笔/秒，媒体直播大屏处理的总数据量高达百亿级别且所有数据都需要做到实时、准确地对外披露……巨大的信息量给数据采集、存储和计算都带来了极大的挑战…
话题讨论：
1、&&大数据及其应用价值有哪些？你所了解的领域有哪些大数据的应用？2、&&为什么很多公司的大数据相关业务都基于 Hadoop 方案？3、&&你对大数据平台架构技术选型与场景运用有什么见解？4、&&大数据思维有十大原理分别为：数据核心原理（从“流程”核心转变为“数据”核心）、数据价值原理（由功能是价值转变为数据是价值）、全样本原理（从抽样转变为需要全部数据样本）、关注效率原理（由关注精确度转变为关注效率）、关注相关性原理（由因果关系转变为关注相关性）、预测原理（从不能预测转变为可以预测）、信息找人原理（从人找信息，转变为信息找人）、机器找人原理（由人懂机器转变为机器更懂人）、电子商务智能原理（大数据改变了电子商务模式，让电子商务更智能）、定制产品原理（由企业生产产品转变为由客户定制产品）、对于这十大原理中的某一点或者某几点你有什么看法？谈谈你的理解和感受
本次话题讨论为开放式题目，不需要大家全部回答，挑自己喜欢的题目回答即可，谈一点自己对于大数据的其他见解亦可，在广度上不做要求，但希望所谈之点更有深度。
活动时间：
日—8月31日
活动奖励：
本期活动，我们将特设1个最佳优胜奖，送SACC2017大会门票一张;
同时，我们将会选取5个精彩回复，各送技术图书《大数据之路阿里巴巴大数据实践》一本；
QQ图片09.png (84.44 KB, 下载次数: 21)
19:04 上传
作者: 阿里巴巴数据技术及产品部出版社名称: 电子工业出版社ISBN编号: 4开本:16开版次：1分类：数据库 & 数据挖掘分析、架构构建& 阿里巴巴
购书入口：
(1).png (9.82 KB, 下载次数: 13)
14:29 上传
样章试读：file:///C:/Users/aaa/Documents/tencent%20files//filerecv/大数据之路：阿里巴巴大数据实践.pdf
SACC 2017 来啦~
2017中国系统架构师大会（SACC2017）将于10月19-21日在北京新云南皇冠假日酒店震撼来袭！
今年，大会以“云智未来”为主题，云集国内外顶级专家，围绕云计算、人工智能、大数据、移动互联网、产业应用等热点领域展开技术探讨与交流。本届大会共设置2大主会场，18个技术专场；邀请来自互联网、金融、制造业、电商等多个领域，100余位技术专家及行业领袖来分享他们的经验；并将吸引4000+人次的系统运维、架构师及IT决策人士参会，为他们提供最具价值的交流平台。
11.png (336.94 KB, 下载次数: 21)
19:04 上传
官网链接：/index.html#top
购票链接：/goupiao.html
欢迎扫码关注SACC官方微信，获取最新信息！
er.png (6.58 KB, 下载次数: 23)
19:04 上传
-------------------------------------------------------------------------------
欢迎大家发帖讨论，分享是美德，也希望CU这个平台带给大家进步和成长，有任何问题，请站短联系！
技术讨论，请加QQ群：
ChinaUnix公众微信：
144815ssikvifehhvvw6uk.jpg (20.63 KB, 下载次数: 23)
19:04 上传
稍有积蓄, 积分 369, 距离下一级还需 131 积分
论坛徽章:3
2、&&为什么很多公司的大数据相关业务都基于 Hadoop 方案？Hadoop相较于MapReduce和IBM的大型机有什么优势？
& & 这个话题说法是有问题的，Hadoop的框架最核心设计就是：HDFS和MapReduce。HDFS为海量数据提供了存储，MapReduce提供了计算的方法。Hadoop的框架中包含了MapReduce。
论坛徽章:69
本帖最后由 cjfeii 于
10:55 编辑
试读的链接放错了吧
巨富豪门, 积分 22939, 距离下一级还需 17061 积分
论坛徽章:35
1、大数据及其应用价值有哪些？你所了解的领域有哪些大数据的应用？
& &数据本身的应用价值是历史记载用以日后使用
& &现在的大数据的价值主要是两方面：一是大大扩展了数据量，二是扩展了数据用途
& &最常见的就属电商了吧，挖掘、推荐，还有游戏行业里行为分析等等
2、为什么很多公司的大数据相关业务都基于 Hadoop 方案？Hadoop相较于MapReduce和IBM的大型机有什么优势？
& &选择hadoop：
& &&&一是大数据相关技术门槛较高，绝大多数公司不具备自研整套的实力
& &&&二是Hadoop技术成熟，有商业项目和历史积淀背书，生态链完善
& &&&首先同意前面楼层说的，hadoop本身就有MapReduce，这一点不具备可比性
& &&&相对于IBM大型机的优势：
& &&&一是hadoop集群扩展更强
& &&&二是hadoop对硬件要求不高，普通机器就可以，门槛低成本划算
3、你对大数据平台架构技术选型与场景运用有什么见解？
& & hadoop生态链里根据自身需要选择就可以了
& & 比如只需要静态分析的，就hadoop就够了
& & 有挖掘需求的，加上spark
& & 有的做日志系统的、推送的，用kafka之类的
& & 看具体需求吧
4、&&大数据思维有十大原理分别为：
& & 数据核心原理（从“流程”核心转变为“数据”核心）
& && &——以前是产品经理定义产品行为，以市场为出发点设计产品，大数据关联起来，都要先收集数据
& & 数据价值原理（由功能是价值转变为数据是价值）
& && &——我不是很赞同所有产品都这样，很多跟风的公司开始搞大数据，根本不看看自己产品的实际情
& && &&&况，收集来的数据也没价值或者用不到，有的老板可能觉得先收集着，万一以后有用呢？可是
& && &&&绝大多数都没用，而且增加了研发成本
& & 全样本原理（从抽样转变为需要全部数据样本）
& && &——技术决定吧，以前的存储方式和数据量级可能会导致全样本采集的难度太大，而现在的大数据
& && &&&相关技术已经突破了这个瓶颈
& & 关注效率原理（由关注精确度转变为关注效率）
& && &——当量级小的时候，精确度计算也简单高效，量大了（数据量和业务量都大了），要先保证服务
& && &&&可用，而且由于数据量级大了，小误差是可以忽略的，所以效率优先
& & 关注相关性原理（由因果关系转变为关注相关性）
& && &——电商为例，行为分析、推荐系统，都是要进行数据挖掘，从而转化为价值，挖掘本身都是基于
& && &&&相关性
& & 预测原理（从不能预测转变为可以预测）
& && &——样本统计了行为分析了知道别人干了啥可能还想干啥，当然就可以预测了，统计学的出发点就
& && &&&是为了分析、预测吧
& & 信息找人原理（从人找信息，转变为信息找人）
& & & & 机器找人原理（由人懂机器转变为机器更懂人）
& & & & 电子商务智能原理（大数据改变了电子商务模式，让电子商务更智能）
& & & & 定制产品原理（由企业生产产品转变为由客户定制产品）
& && &——这些都和前面想说的差不多，都是关联性，关联性分析的基础就是数据
家境小康, 积分 1823, 距离下一级还需 177 积分
论坛徽章:25
本帖最后由 fenyun689 于
09:35 编辑
现在大数据应用越来越火了。从大量的数据中抽取有价值的信息。
我们公司应用是处理试验数据，刚开始使用。
通过从现场运行时，产生大量的试验数据中找出提高产品性能，质量的信息。以及产品在不同环境下性能，寿命变化。
大数据分析客户信息可以从大批量的潜在客户中找出高价值的客户，分析用户习惯，制定资费标准。增加用户粘性，忠诚度。
大数据应用与人工智能本身就是一体的。只有这样才能发挥大数据应用的作用。
也就知道这么多。
家境小康, 积分 1258, 距离下一级还需 742 积分
论坛徽章:3
1、&&大数据及其应用价值有哪些？你所了解的领域有哪些大数据的应用？大数据的应用价值就在于发现与实践，好比马云说过，你知道中国平均胸围最大的省是哪里吗？你知道最小的是哪里吗？我告诉你是浙江。。（原话）这样可以把平均发货量的多少大小成本都能计算在内。互联网领域的大数据当然是用户的习性，这个是所有互联网数据分析师最喜欢研究，也是最难研究的一个标签了。我了解到的阿里淘宝的大数据，网易新闻的大数据都还是做的不错的。2、&&为什么很多公司的大数据相关业务都基于 Hadoop 方案？Hadoop是一个大数据分析的装备吧。但是现在已经开始有人觉得ha不行了。3、&&你对大数据平台架构技术选型与场景运用有什么见解？架构选型了解不太多，但是重点就是分析的思路，不同用户群要整理出来，必须了解用户习性。
稍有积蓄, 积分 229, 距离下一级还需 271 积分
论坛徽章:8
1 大数据及其应用价值有哪些？你所了解的领域有哪些大数据的应用？
(1) 大数据能够帮助企业分析大量数据而进一步挖掘市场潜在的机会以及细分市场，然后对每个群体采取个性化的行动。目前，我们部门会充分利用各个业务线行为日志进行个性化推荐，给用户推荐可能感兴趣的旅游产品，进而提高订单转换率．
(2) 当前，很多公司还是更多依赖个人经验和直觉做决策，而不是基于数据。在信息有限、获取成本代价比较高的时代，这样做决策还是情有可原的，但是目前处在大数据时代，就必须利用数据来做决策。目前我们部门收集公司各个业务线的行为日志，经过筛洗之后，做一些细粒度的分析统计供高层进行下一步的决策．
2 为什么很多公司的大数据相关业务都基于 Hadoop 方案？
目前而言，对于中小型公司来说，都会使用Hadoop解决方案，也有可能会使用Spark，但是使用Hadoop的公司还是占多数的．
(1) 成本问题
Hadoop是架构在廉价的硬件服务器上，不需要非常昂贵的硬件做支撑．
(2) 生态圈
Hadoop有成熟并活跃的生态圈，资料很多，如果出现问题，我们可以很容易根据前人的足迹来解决，而不是摸着石头过河。
3 你对大数据平台架构技术选型与场景运用有什么见解？
(1) 数据采集
负责从各节点上实时采集数据，选用Flume来实现．或者使用Sqoop可以将一个关系型数据库(例如mysql等)中的数据导进到Hadoop的HDFS中．
(2) 数据接入
由于采集数据的速度和数据处理的速度不一定同步，因此添加一个消息中间件来作为缓冲，选用Kafka
(3) 实时计算
对采集到的数据进行实时分析，选用Spark或者Storm
(4) 离线计算
对采集到的数据可以进行持久化存储在HDFS中，进行离线分析统计，选用MapReduce/Hive
＜大数据之路阿里巴巴大数据实践＞　书不错　拜读
白手起家, 积分 69, 距离下一级还需 131 积分
论坛徽章:5
本帖最后由东风玖哥于
16:37 编辑
1、大数据及其应用价值有哪些？你所了解的领域有哪些大数据的应用？
大数据的价值在于客户群体细分和发现隐藏线索。
关于客户群体细分我可以举一个缺德的例子：电商根据大数据判断哪些买家退货较少，然后残次品都发给这些买家。
2、为什么很多公司的大数据相关业务都基于 Hadoop 方案？
（一）高可靠性。Hadoop按位存储和处理数据的能力值得信赖;
（二）高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的，这些集簇可以方便地扩展到数以千计的节点中
（三）高效性。Hadoop能够在节点之间动态地移动数据，并保证各个节点的动态平衡，因此处理速度非常快
（四）高容错性。Hadoop能够自动保存数据的多个副本，并且能够自动将失败的任务重新分配
3、你对大数据平台架构技术选型与场景运用有什么见解？
Hadoop和Spark都是Apache推出的大数据框架，两者的区别在于解决问题的层面不同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储，意味着您不需要购买和维护昂贵的服务器硬件。而Spark则是那么一个专门用来对那些分布式存储的大数据进行处理的工具，它并不会进行分布式数据的存储。
因此两者通常可以配合使用，在Hadoop的HDFS上运行Spark是最好的大数据平台架构技术选型。
小富即安, 积分 2193, 距离下一级还需 2807 积分
论坛徽章:15
为什么很多公司的大数据相关业务都基于 Hadoop 方案？
很多人都会回答对硬件要求不高，普通机器就可以，事实上很少有企业会在普通PC上运行Hadoop集群，大多也是在服务器上运行，所以硬件的要求个人觉得并不是决定的关键因素
首先hadoop方案并不说是MapReduce，而是整个hadoop生态圈，对照可以看hortonworks的HDP整个协议栈就知道了，包括实时流计算storm、内存计算spark、结构化查询Hive/sparkSQL，安全组件ranger，数据工作流flume/sqoop/kafka等，所以hadoop已经是一个庞大的生态圈，丰富的社区支持，你想要的功能都有，而且还比较成熟，所以选择hadoop肯定比选择专有软件更好
你对大数据平台架构技术选型与场景运用有什么见解？
如果你仔细观察了，大多数的公司的大数据平台架构几乎类似或相差不大，这个其实也是行业成熟的经验了，虽然大的方向一样，但针对应用的特点我们还是要做不同的配置优化，同时做相应的测试来看平台是否能满足需求，最主要的是团队人员能否把控整个平台，团队里要有合适的运维人员，要时刻监控平台的metrix，不要等出大问题无法解决或解决时间过长
白手起家, 积分 123, 距离下一级还需 77 积分
论坛徽章:0
为什么很多公司的大数据相关业务都基于 Hadoop 方案？
选择Hadoop的原因最重要的就是这三点：1，可以解决问题； 2，成本低； 3，成熟的生态圈。
一，Hadoop帮助我们解决了什么问题
无论国内还是国外的大公司对于数据都有着无穷无尽的渴望，都会想尽一切办法收集一切数据，
因为通过信息的不对称性可以不断变现，而大量的信息是可以通过数据分析得到的。
数据的来源途径非常的多，数据的格式也越来越多越来越复杂，随着时间的推移数据量也越来越大。
因此在数据的存储和基于数据之上的计算上传统数据库很快趋于瓶颈。
而Hadoop正是为了解决了这样的问题而诞生的。其底层的分布式文件系统具有高拓展性，通过数据冗余保证数据不丢失和提交计算效率，同时可以存储各种格式的数据。
同时其还支持多种计算框架，既可以进行离线计算也可以进行在线实时计算。
二，为什么成本可以控制的低
确定可以解决我们遇到的问题之后，那就必须考虑下成本问题了。
1，硬件成本
Hadoop是架构在廉价的硬件服务器上，不需要非常昂贵的硬件做支撑
2，软件成本
开源的产品，免费的，基于开源协议，可以自由修改，可控性更大
3，开发成本
因为属于二次开发，同时因为有非常活跃的社区讨论，对开发人员的能力要求相对不高，工程师的学习成本也并不高
4，维护成本
当集群规模非常大时，开发成本和维护成本会凸显出来。但是相对于自研系统来说的话，还是便宜的很多。
某司自研同类系统几百名工程师近4年的投入，烧钱亿计，都尚未替换掉Hadoop。
5，其他成本
如系统的安全性，社区版本升级频繁而现实是无法同步进行升级所引入的其他隐形成本。
三，成熟的生态圈有什么好处
成熟的生态圈代表的未来的发展方向，代表着美好的市场前景，代表着更有钱途的一份工作(好吧，“三个代表”).}

我爱游戏网