没有基础学大数据处理技术什么地方好?

有基础的大数据培训,有哪些需要关注的问题?
大数据前景看好,很多其他行业的朋友也想转行大数据,零基础开始学习。那么本来就从事IT行业的朋友对大数据一定有所想法,大数据的学习需要java基础,有基础的朋友应该如何学习呢?又有哪些需要注意的问题?这里科多大数据做个简单的介绍。
有java基础,学习大数据的周期是2个月左右,时间不长,很快便能够转行。如果遇到瓶颈不妨提升自己,开始大数据的学习。
那么如果现在在职,不想辞职应该怎么办呢?科多大数据针对有基础在职的朋友开设了夜间+周末班。运用下班和周末时间学习充电,不耽误上班的时间,不用辞职也可以转行。但是白天上班,下班后又学习,非常考验一个人的韧劲,学习也是非常辛苦的。所以一定要做好心理准备。科多大数据也遇到过很多不想辞职,但又害怕辛苦而纠结的学员,这里要提醒各位,学海无涯苦作舟,想要得到,你首先要学会放弃,放弃一些休息的时间。
此外,在学习过程中还会遇到学不懂的情况,这种情况一般都是在刚开始学习的一星期内可能会出现的。Java到大数据,最主要是思维模式的转换,哪怕是基础非常扎实的人在刚开始接触大数据的课程的时候,也可能会存在学不懂的情况,这种情况是正常的,这是一个缓冲的时期,多坚持下,入门了那就好了。
怎么知道自己的基础怎么样,适不适合提高班的课程呢?这一点,在入学之前,科多大数据都会对学员的基础进行测试,测试过关才能进入提高班的学习。这一点是本着对学员负责的态度,如果基础不好是很难跟上老师的节奏的,浪费的是学员自己的时间。
总之,大数据的学习是有难度的,但是学成后的薪资、待遇确实都是不错的,要想人前显贵,必先人后受罪就是这个道理。
详情可以上科多大数据官网:
更多大数据资料可以加群:
责任编辑:
声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
今日搜狐热点培训就业学员就业面试技巧培训讲师职业测评
0基础转行大数据都要学习什么内容?
0基础转行大数据都要学习什么内容?
10:59:31 来源:优就业
如果你零基础想转行学习大数据,刚开始很多人会有无从下手的情况,大数据都要学习什么内容?接下来陕西优就业小编给大家介绍一下:
大数据都要学习什么内容&&阶段一 Linux操作系统的学习。
这个时候可能会偏理论一些,可能会比较枯燥,但是基础很重要,主要学习点包括:Linux系统的历史、发展与企业应用现状;Linux目录结构与命令的使用;Linux系统下载、用户与权限管理;目录与文件管理;编辑器VIM的使用;SHELL、环境变量与脚本;服务的配置(FTP、HTTP、DNS、SAMBA、SSH等);存储的管理(文件系统、LVM、裸设备等);Linux系统下ORACLE数据库的安装与配置。
大数据都要学习什么内容&&阶段二 SHELL脚本操作
这个阶段你就要动手实践了,主要学习内容有:深入理解脚本语言;SHELL命令与SHELL脚本的区别与应用场景;SHELL变量类型与设置;SHELL正则表达式;sed和awk文字流处理;SHELL脚本的测试方法;SHELL控制结构;SHELL脚本的调试与跟踪;SHELL脚本进行自动控制与维护应用与服务。
大数据都要学习什么内容&&阶段三 MYSQL数据库
主要学习知识点有:LAMP/LNMP架构的起源、组件内容与市场应用状况;获取软件、选择可用版本、安装架构的各个组件;搭建、调试LAMP/LNMP架构;MYSQL数据库的体系结构;SQL在MYSQL数据库的应用;MYSQL数据库的创建、数据库中各对象的创建;MYSQL数据库,掌握MYSQL引擎的选择、参数的配置;MYSQL数据库的备份与恢复工具,并实践数据库的备份与恢复;MYSQL数据库在LAMP/LNMP架构中的应用;
大数据都要学习什么内容&&阶段四 大数据架构
大数据的核心知识点都在这了,主要有:大数据的发展未来、应用场景;大数据平台各软件的下载、安装和配置;HDFS工作原理、配置与管理;YARN工作原理、配置与管理;Sqoop工作原理、配置与管理;Hive数据库的工作原理、安装配置与管理;Hbase数据库的工作原理、安装配置与管理;Kylin工作原理、配置与管理;Spark工作原因,对大数据进行分析;
重要提示:学习一门技术不难,重要的是需要不断动手实践,在实践中不断总结经验教训,不断提升自己,这样你的技术之路会走的更远!
如果你想通过专业的培训入门大数据,可以参加陕西优就业班,理论和实操相结合,让你成为真正的大数据高端人才。
推荐阅读:&&
微信二维码
QQ群二维码
微博二维码
免责声明:本文来源于网络,由网友提供或网络搜集,仅供个人交流学习参考使用,不涉及商业盈利目的。如有版权问题,请联系本站管理员予以更改或删除。谢谢合作!
热门标签:
在线学习 ● APP下载
微信扫一扫
400-650-7353大数据培训不可能速成,基础很重要!-业界动态-@大数据资讯
你好,游客
大数据培训不可能速成,基础很重要!
来源:中关村在线&
  培训是IT领域热度最高的培训项目之一,其培训主体内容为统计学、运筹学、机器学习、沟通能力、编程、可视化、商业直觉、数据处理和行业知识等。大数据培训是大数据发展带动下的衍生行业,是培养大数据人才的关键。
  大数据培训不可能速成
  大数据培训的出现是因为大数据行业的人才极为缺乏。由于大数据发展时间较短,正规高等院校开设相关课程也较晚;而行业发展速度却飞快,因此行业人才缺乏问题始终得不到解决。
  大数据培训基础很重要
  大数据培训的发展可以说是顺应了市场需求的。可大数据行业与传统软件及编程等教学不同,大数据是一种综合性很强的学科,不仅要求教育机构有相应的教育水准,对学生的编程基础要求也较高。一般来讲,想要学习大数据至少应该对R语言、sql、Python、JavaScript、Scala、Java等有所了解,部分甚至要求Java达到精通水准,这种苛刻的要求让不少人望而却步。
  人才的缺乏导致了大数据人才争夺分外激烈,相应的薪酬高涨,让大数据一词俨然成为了高薪的代言人。而抓住了这一点的部分培训学校,利用人们的惰性和投机心理,不顾自身是否具备成熟的大数据教学条件便开设大数据培训课程,这种急功近利的培训手段很难培养出真正的大数据人才。
  优秀的大数据培训学校虽然少,但也存在。这些学校为学员提供、storm、spark等大数据前沿技术,另一方面提供项目实践的机会。大数据行业的薪资往往和工作经历有关,学员工作能力和经验越多,薪资也会随之增长。
  大数据的处理流程
  大数据培训关键在于能够完成,而大数据处理的流程困难重重。处理过程一般来讲可以分为四步。
  首先应当利用多个数据库接收来自不同的客户端的数据进行数据采集。用户通过这些数据库来进行简单的查询和处理,而在大数据采集过程中所面临的主要困难在于并发数过高,同时可能有成千上万的用户在访问或者操作,如何在数据库间完成负载均衡和分片是重难点。
  第二步在于数据导入和预处理。由于数据采集涉及了多种数据库,在对这些数据进行有效的分析之前,需要将所有的数据导入集中的大型分布式数据库,然后对数据进行简单的数据清洗和预处理。这一步主要面临的问题在于导入数据量大,导入流量通常可以达到成百上千兆级别。
  大数据处理流程困难重重
  第三步统计和分析。利用分布式数据库将存储在其中的数据进行普通的分析及分类汇总,进行批量的处理。对于半结构化的数据还需要使用Hadoop等。而这一步主要面临的挑战是设计的分析数据量大,对系统资源占用率高,对于系统I/O挑战较大。
  第四步就是。数据挖掘和分析过程不同,基于前三部的各种算法的计算,最终达到预测的效果,从而满足更高级的需求。该过程的特点在于挖掘算法十分复杂,涉及的数据量和计算量都很吊,常用的挖掘算法都以单线程为主。
  大数据培训需要培训能够完成整套大数据处理或其中一环的人才,但是鉴于大数据的困难性,培训必然不可能一蹴而就,因此脚踏实地才是完成大数据培训的关键。
相关新闻 & & &
& (昨 17:13)
& (昨 17:09)
& (昨 17:11)
   同意评论声明
   发表
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款怎样进行大数据的入门级学习?
我的图书馆
怎样进行大数据的入门级学习?
arrow-down
conversations
best_answerer
verified_and_best_answerer
live_emoji
touch to download
edit answer reward tagline
show rewarders list
arrow right
乐享非凡 乐享知识36 个回答统计套利 | 算法交易 | 机器学习 | 数据科学我在去年年底的时候曾应一位前辈的要求,写了一个学习“数据科学:从入门到进阶”的经验贴,我就直接把它贴在下面了。虽然题主问的是大数据的入门,但在我看来“大数据”就是数据科学的一个高阶状态。以下内容中除个别情况,我基本上都会使用“数据科学”这个概念。---------------------------------正 文-----------------------------------数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。但从狭义上来看,我认为数据科学就是解决三个问题:1. data pre-2. data interpretation;3.data modeling and analysis. 这也就是我们做数据工作的三个大步骤:1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;2、我们想看看数据“长什么样”,有什么特点和规律;3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。这三个步骤未必严谨,每个大步骤下面可能依问题的不同也会有不同的小步骤,但按我这几年的经验来看,按照这个大思路走,数据一般不会做跑偏。这样看来,数据科学其实就是门复合型的技术,既然是技术就从编程语言谈起吧,为了简练,只说说R和Python。但既然是荐数据科学方面的书,我这里就不提R/Python编程基础之类的书了,直接上跟数据科学相关的。R programming如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本:R in action:我的R语言大数据101。其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭。但如果配合上一些辅助材料,如官方发布的R basics(),stackoverflow上有tag-R的问题集(),遇到复杂的问题可在上面搜索,总会找到解决方案的。这样一来,用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松,紧贴实战。Data analysis and graphics using R:使用R语言做数据分析的入门书。这本书的特点也是紧贴实战,没有过多地讲解统计学理论,所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强,也就是说哪怕你手头没电脑写不了代码,有事没事拿出这本书翻一翻,也能读得进去。但如果你先用R来从事实实在在的数据工作,那么上面两本恐怕不够,还需要这些:Modern applied statistics with S:这本书里统计学的理论就讲得比较多了,好处就是你可以用一本书既复习了统计学,又学了R语言。(S/Splus和R的关系就类似于Unix和Linux,所以用S教程学习R,一点问题都没有)Data manipulation with R:这本书实务性很强,它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样,本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说,这本书的内容非常重要,因为对于任何研究,一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则,你的研究总是要等待你的数据。R Graphics Cookbook:想用R做可视化,就用这本书吧。150多个recipes,足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看,R是最容易做出最漂亮的图表的工具了。An introduction to statistical learning with application in R:这本书算是著名的the element of statistical learning的姊妹篇,后者更注重统计(机器)学习的模型和算法,而前者所涉及的模型和算法原没有后者全面或深入,但却是用R来学习和应用机器学习的很好的入口。A handbook of statistical analysis using R:这本书内容同样非常扎实,很多统计学的学生就是用这本书来学习用R来进行统计建模的。PythonThink Python,Think Stats,Think Bayes:这是Allen B. Downey写的著名的Think X series三大卷。其实是三本精致的小册子,如果想快速地掌握Python在统计方面的操作,好好阅读这三本书,认真做习题,答案链接在书里有。这三本书学通了,就可以上手用Python进行基本的统计建模了。Python For Data Analysis: 作者是pandas的主要开发者,也正是Pandas使Python能够像R一样拥有dataframe的功能,能够处理结构比较复杂的数据。这本书其实analysis讲得不多,说成数据处理应该更合适。掌握了这本书,处理各种糟心的数据就问题不大了。Introduction to Python for Econometrics, Statistics and Data Analysis:这本书第一章就告诉你要安装Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面,但读起来比较枯燥,可以用来当工具书。Practical Data Analysis: 这本书挺奇葩,貌似很畅销,但作者把内容安排得东一榔头西一棒子,什么都讲一点,但一个都没讲透。这本书可以作为我们学习数据分析的一个索引,看到哪块内容有意思,就顺着它这个藤去摸更多的瓜。Python Data Visualization Cookbook: 用Python做可视化的教材肯定不少,我看过的也就这一本,觉得还不错。其实这类书差别都不会很大,咬住一本啃下来就是王道。Exploratory Data Analysis 和 Data VisualizationExploratory Data Analysis:John Tukey写于1977年的经典老教材,是这一领域的开山之作。如今EDA已经是统计学里的重要一支,但当时还是有很多人对他的工作不屑一顾。可他爱数据,坚信数据可以以一种出人意料的方式呈现出来。正是他的努力,让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了,内容略过时。要想完整地了解EDA,推荐下一本:Exploratory Data Analysis with MATLAB:这本书虽然标题带了个MATLAB,但实际上内容几乎没怎么讲MATLAB,只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于,这是我读过的讲EDA最系统的一本书,除了对visualization有不输于John Tucky的讲解外,对于高维的数据集,通过怎样的方法才能让我们从中找到潜在的pattern,这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码,而且还提供了GUI(图形用户界面)。所以这本书学起来还是相当轻松愉悦的。Visualize This:中译本叫“鲜活的数据”,作者是个“超级数据迷”,建立了一个叫的网页展示他的数据可视化作品,这本书告诉你该选择什么样的可视化工具,然后告诉你怎样visualize关系型数据、时间序列、空间数据等,最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么,可以直接点开下面这个链接感受下吧!A tour through the visualization zoo()Machine Learning & Data Mining这一块就不多说了,不是因为它不重要,而是因为它太太太重要。所以这一部分就推两本书,都是”世界名著“,都比较难读,需要一点点地啃。这两本书拿下,基本就算是登堂入室了。其实作为机器学习的延伸和深化,概率图模型(PGM)和深度学习(deep learning)同样值得研究,特别是后者现在简直火得不得了。但PGM偏难,啃K.Daphne那本大作实在太烧脑,也没必要,而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大,各个domain的应用如火如荼,但要有公认的好教材问世则还需时日,所以PGM和deep learning这两块就不荐书了。The Element of Statistical Learning:要学机器学习,如果让我只推荐一本书,我就推荐这本巨著。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了,大厦建得够高够大,结构也非常严谨,而且很有前瞻性,纳入了很多前沿的内容,而不仅仅是一部综述性的教材。(图表也做得非常漂亮,应该是用R语言的ggplot2做的。)这本书注重讲解模型和算法本身,所以需要具备比较扎实的数理基础,啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习(统计学习)的库现在已经非常丰富,即使你没有完全搞懂某个模型或算法的原理和过程,只要会用那几个库,机器学习也能做得下去。但你会发现你把数据代进去,效果永远都不好。但是,当你透彻地理解了模型和算法本身,你再调用那几个库的时候,心情是完全不一样的,效果也不一样。Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋,之所以推荐这本韩家炜爷爷的,是因为虽然他这本书的出发点是应用,但原理上的内容也一点没有落下,内容非常完整。而且紧跟时代,更新的很快,我看过的是第二版,就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了,我还没看过,但应该也加入了不少新内容。其实这本书并不难读,只是篇幅较长,啃起来比较耗时。其实这两本书里单拎出来一块内容可能又是几本书的节奏,比如bayesian方法,再拿出两三本书来讲也不为过,我个人用到的比较多,而且也确实有不少好书。但并非是所有data scientist都要用到,所以这一块就不再细说。还有一些印象比较深刻的书:Big Data Glossary: 主要讲解大数据处理技术及工具,内容涵盖了NoSQL,MapReduce,Storage,Servers,NLP库与工具包,机器学习工具包,数据可视化工具包,数据清洗,序列化指南等等。总之,是一本辞典式的大数据入门指导。Mining of Massive Datasets:这本书是斯坦福大学Web Mining的讲义,里面很多内容与韩家炜的Data Mining那本书重合,但这本书里详细地讲了MapReduce的设计原理,PageRank(Google创业时期的核心排序算法,现在也在不断优化更新)讲解得也比较详细。Developing Analytic Talent: 作者是个从事了十几年数据工作的geek,技术博客写得很有个人风格,写的内容都比较偏门,通常只有具备相关数据处理经验的人能体会出来,丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办,或者MapReduce在什么时候不好用的问题,才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结,用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。Past, Present and Future of Statistical Science:这本书是由COPSS(统计学社主席委员会,由国际各大统计学会的带头人组成)在50周年出版的一本纪念册,里面有50位统计学家每人分别贡献出的一两篇文章,有的回忆了自己当年如何走上统计学这条路,有的探讨了一些统计学的根本问题,有的谈了谈自己在从事的前沿研究,有的则给年轻一代写下了寄语。非常有爱的一本书。其它资料Harvard Data Science:这是H大的Data science在线课,我没有修过,但口碑很好。这门课需要费用8千刀左右,比起华盛顿大学的4千刀的Data science在线课虽贵一倍,但比斯坦福的14千刀要便宜将近一半(而且斯坦福的更偏计算机)。如果想自学,早有好心人分享了slides: ()和homeworks and solutions: ()PyData:PyData是来自各个domain的用Python做数据的人每年举行一次的聚会,期间会有各路牛人举行一些规模不大的seminar或workshop,有好心人已经把video上传到github,有兴趣的去认领吧()工具R/Python/MATLAB(必备):如果是做数据分析和模型开发,以我的观察来看,使用这三种工具的最多。R生来就是一个统计学家开发的软件,所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具,但因为很多人不是专业做数据的,做数据还是为了自己的domain expertise(特别是科学计算、信号处理等),而MATLAB又是个强大无比的Domain expertise工具,所以很多人也就顺带让MATLAB也承担了数据处理的工作,虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件,但作为一个面向对象的高级动态语言,其开源的生态使Python拥有无比丰富的库,Numpy, Scipy 实现了矩阵运算/科学计算,相当于实现了MATLAB的功能,Pandas又使Python能够像R一样处理dataframe,scikit-learn又实现了机器学习。SQL(必备):虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展,但对于很多人来说,他们每天都有处理数据的需要,但可能一辈子都没机会接触TB级的数据。不管怎么说,不论是用关系型还是非关系型数据库,SQL语言是必须要掌握的技能,用什么数据库视具体情况而定。MongoDB(可选):目前最受欢迎的非关系型数据库NoSQL之一,不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用,扩展性强,Web2.0时代的必需品。Hadoop/Spark/Storm(可选): MapReduce是当前最著名也是运用最广泛的分布式计算框架,由Google建立。Hadoop是基于MapReduce的框架建立起来的分布式计算系统,Spark在Map Reduce的基础上利用有向无环图构建了RDD,目的就是为了减少Map和Reduce之间的数据交换次数,所以速度就快了。另一个区别就是,Hadoop用硬盘存储数据,Spark用内存存储数据,Storm只接受实时数据流而不存储数据。Hadoop因为“历史”最为悠久,有不少技术和产品都是基于Hadoop开发的,所以在较长的时间内Hadoop并不会不会被淘汰。而Spark是目前生态最好,最活跃的分布式框架。如果刚刚起步研究分布式计算,可从Spark入手。OpenRefine(可选):Google开发的一个易于操作的数据清洗工具,可以实现一些基本的清洗功能。Tableau(可选):一个可交互的数据可视化工具,操作简单,开箱即用。而且图表都设计得非常漂亮。专业版1999美刀,终身使用。媒体和公关方面用得比较多。Gephi(可选):跟Tableau类似,都是那种可交互的可视化工具,不需要编程基础,生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。------------------------------------正 文 完-----------------------------------------除了比较难找到资料给出链接之外,其余都需要各位自己动手了。也请多多支持正版。刚开通了值乎,欢迎来扰。 (二维码自动识别)最有用的三点: - 多看书; - 多写代码; - 多交流。----------------看书的方面,@ 的答案里列得已经非常详细了,确实都是经典。补充基本个人感觉比较有价值的:Toby Segaran (2007) Programming Collective Intelligence, O'ReillyJoel Grus (2015) Data Science from Scratch, O'ReillyRussell Jurney (2013) Agile Data Science, O'Reilly以上三本书的共同特点是,不拘泥于具体技术细节,而是通过实例描述了end to end的整套大数据流程,同时又提供了非常down to earth的代码,让读者能够马上上手实践。回国工作一段时间,有个比较突出的体会:国内的技术人才绝大部分基础扎实,能力很强,对各种技术如数家珍,上手都非常快,比起国外同行稍显薄弱的是分析实际业务问题,建立Technology Stack来解决之的能力。以上推荐的三本书有助于培养这方面的能力。做为Data Scientist,本人关注的主要是Data Science相关方向的资料。和题主问题略有出入,望海涵。---------------写代码的方面,公司或研究所有现成的环境是最好的。如果没有,自己看书在云端搭一个。现在云服务已然是白菜价,这些投资会物超所值。不知道题主说的入门级是有多基础,如果Linux, Git, Vim还不会的话,首先补上这几课。有了环境,选一本自己能看得下去的书,跟着把里面的例子跑一遍,弄懂每行代码是干嘛的。[ 08/28/2015 ] 评论有朋友问新手编程如何入门。 赞同
的回复,再补充几点:如果完全没有编程基础,目标又是数据科学方向(而非软件工程师),不推荐从C族语言(C/C /Java/C#)起步。直接学Python,容易入门,很快能在实际工作中用上。高票答案中推荐了一些Python的书都不错。Think Python是非常好的入门书,每章的例子都很短小精悍,容易理解,自己敲一遍,再把每章的习题做一做,Python入门基本就没问题。Think Python的问题是教材气重了些。如果需要写复用度高的,健壮的代码,推荐和这本结合看:Practical Python。手机党查资料不方便,这里就不给链接了。回到电脑前再补充。---------------交流的方面,多参加一些线下活动,认识朋友。多刷Stack Overflow, Quora。Youtube上的各种讲座,会议,教程,多到你不敢相信。Slidesshare欢迎补充。需要讲得详细些的地方,欢迎留言。App 内打开推荐阅读其它回答大数据是个很大的范畴,很虚的概念,基本上说给外行人听的。就好比写程序,有写前端的,写后端的,有写嵌入式的,有写客户端的,有写APP的,从语言上来讲主流的语言就几十种。这些的入门方法都不一样。你最好明确你的目的,并且有个确切的应用方向,是对什么行业的数据,数据来源是什么,关注是存储还是分析挖掘,数据量多大,是文本类还是图像类还是纯粹的商业数字,这些工作完全不一样。查看更多:http://t.cn/RogOHa11.Linux基础和分布式集群技术学完此阶段可掌握的核心能力:熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;学完此阶段可解决的现实问题:搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务;学完此阶段可拥有的市场价值:具备初级程序员必要具备的Linux服务器运维能力。1.内容介绍:在领域,使用最多的就是Linux系列,并且几乎都是分布式集群。该课程为大数据的基础课程,主要介绍Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等。2.案例:搭建互联网高并发、高可靠的服务架构。2.离线计算系统课程阶段1. 离线计算系统课程阶段Hadoop核心技术框架学完此阶段可掌握的核心能力:1、通过对大数据技术产生的背景和行业应用案例了解hadoop的作用;2、掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发;3、掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发;4、掌握数据仓库工具的工作原理及应用开发。学完此阶段可解决的现实问题:1、熟练搭建海量数据离线计算平台;2、根据具体业务场景设计、实现海量数据存储方案;3、根据具体数据分析需求实现基于mapreduce的分布式运算程序;学完此阶段可拥有的市场价值:具备企业数据部初级应用开发人员的能力1.1 HADOOP快速入门1.1.1 hadoop知识背景什么是hadoop、hadoop产生背景、hadoop在大数据中的位置和关系、国内hadoop的就业情况分析及课程大纲介绍国内外hadoop应用案例介绍分布式系统概述、hadoop生态圈及各组成部分的简介1.1.2 HIVE快速入门hive基本介绍、hive的使用、数据仓库基本知识1.1.3 数据分析流程案例web点击流日志数据挖掘的需求分析、数据来源、处理流程、数据分析结果导出、数据展现1.1.4 hadoop数据分析系统集群搭建集群简介、服务器介绍、网络环境设置、服务器系统环境设置、JDK环境安装、hadoop集群安装部署、集群启动、集群状态HIVE的配置安装、HIVE启动、HIVE使用测试1.2 HDFS详解1.2.1 HDFS的概念和特性什么是分布式文件系统、HDFS的设计目标、HDFS与其他分布式存储系统的优劣势比较、HDFS的适用场景1.2.2 HDFS的shell操作HDFS命令行客户端启动、HDFS命令行客户端的基本操作、命令行客户端支持的常用命令、常用参数介绍1.2.3 HDFS的工作机制HDFS系统的模块架构、HDFS写数据流程、HDFS读数据流程NAMENODE工作机制、元数据存储机制、元数据手动查看、元数据checkpoint机制、NAMENODE故障恢复、DATANODE工作机制、DATANODE动态增减、全局数据负载均衡1.2.4 HDFS的java应用开发搭建开发环境、获取api中的客户端对象、HDFS的java客户端所具备的常用功能、HDFS客户端对文件的常用操作实现、利用HDFS的JAVA客户端开发数据采集和存储系统1.3 MAPREDUCE详解1.3.1 MAPREDUCE快速上手为什么需要MAPREDUCE、MAPREDUCE程序运行演示、MAPREDUCE编程示例及编程规范、MAPREDUCE程序运行模式、MAPREDUCE程序调试debug的几种方式1.3.2 MAPREDUCE程序的运行机制MAPREDUCE程序运行流程解析、MAPTASK并发数的决定机制、MAPREDUCE中的combiner组件应用、MAPREDUCE中的序列化框架及应用、MAPREDUCE中的排序、MAPREDUCE中的自定义分区实现、MAPREDUCE的shuffle机制、MAPREDUCE利用数据压缩进行优化、MAPREDUCE程序与YARN之间的关系、MAPREDUCE参数优化通过以上各组件的详解,深刻理解MAPREDUCE的核心运行机制,从而具备灵活应对各种复杂应用场景的能力MAPREDUCE实战编程案例:通过一个实战案例来熟悉复杂MAPREDUCE程序的开发。该程序是从nginx服务器产生的访问服务器中计算出每个访客的访问次数及每次访问的时长。原始数据样例如下:通过一系列的MAPREDUCE程序——清洗、过滤、访问次数及时间分析,最终计算出需求所要的结果,用于支撑页面展现:1.4 HIVE增强1.4.1 HIVE基本概念HIVE应用场景、HIVE内部架构、HIVE与hadoop的关系、HIVE与传统对比、HIVE的数据存储机制、HIVE的运算执行机制1.4.2 HIVE基本操作HIVE中的DDL操作、HIVE中的DML操作、在HIVE中如何实现高效的JOIN查询、HIVE的内置函数应用、HIVE shell的高级使用方式、HIVE常用参数配置、HIVE自定义函数和TRANSFORM的使用技巧、HIVE UDF开发实例1.4.3 HIVE高级应用HIVE执行过程分析及优化策略、HIVE在实战中的最佳实践案例、HIVE优化分类详解、HIVE实战案例--数据ETL、HIVE实战案例--用户访问时长统计HIVE实战案例--级联求和报表实例:离线数据挖掘系统学完此阶段可掌握的核心能力:1、通过对数据仓库知识的加强初步掌握数据仓库的核心概念和设计流程;2、通过对HADOOP生态圈关键辅助工具的学习掌握hadoop分析系统的整合能力;3、通过电商系统点击流日志数据挖掘系统实战项目,掌握hadoop离线数据挖掘系统从数据采集、入库、分析及报表展现的整套流程学完此阶段可解决的现实问题:1、可根据企业具体场景设计海量数据分析系统的通用架构2、根据具体场景的特点有针对性地调整数据分析各环节的技术选型;3、根据具体需求搭建起整套离线数据分析系统;4、简单数据仓库模型的设计和架构5、各环节具体功能模块的开发实现学完此阶段可拥有的市场价值:具备企业数据部中高级应用开发和初级架构师能力2.1 数据仓库增强2.1.1 数据仓库及数据模型入门什么是数据仓库、数据仓库的意义、数据仓库核心概念、数据仓库的体系结构2.1.2 数据仓库设计建立数据仓库的步骤、数据的抽取、数据的转换、数据的加载、什么是数据模型、数据模型的常见类型、如何设计数据模型、如何选择数据建模的架构典型数据模型——星型建模实例2.1.3 数据仓库建模样例业务建模、领域建模、逻辑建模、物理建模web点击流日志分析系统数据仓库设计实战:通过对数据特点和业务需求的分析,关系梳理,设计出一个主题明确、层次合理的数据模型2.2 离线辅助系统2.2.1 数据采集系统数据采集概念介绍FLUME日志采集框架介绍、FLUME工作机制、FLUME核心组件、FLUME参数配置说明、FLUME采集nginx日志实战案例2.2.2 任务调度系统任务调度系统概念介绍、常用任务调度工具比较、OOZIE介绍、OOZIE核心概念、OOZIE的配置说明、OOIZE实现mapreduce/hive等任务调度实战案例2.2.3 数据导出数据导出概念介绍、SQOOP基础知识、SQOOP原理及配置说明、SQOOP数据导入实战、SQOOP数据导出实战、SQOOP批量作业操作2.3 web点击流日志分析系统实战项目2.3.1 项目介绍1. 在PC时代,营销的核心是购买,在移动互联网时代,其核心是如何实现用户个性化互动,对用户传播更为精准化的内容,而实现这一核心的基础就是对数据的管理和分析——数据驱动型商业模型。2. 各类互联网服务产品(如网站、APP)都可以通过前端技术获取用户的详细行为数据(如访问的页面,点击的区域、登陆的频次、注册行为、购买的行为等),将这些点击流日志数据与后台商业数据综合起来,就可以挖掘对公司运营决策意义非凡的商业价值。3. 本项目则是一个用大数据技术平台实现的点击流日志分析数据挖掘系统,项目内容涵盖一个典型数据挖掘系统中,包括需求分析、数据采集、数据存储管理、数据清洗、数据仓库设计、ETL、业务模型统计分析、数据可视化的全部流程。2.3.2 需求分析什么是点击流日志、点击流日志的商业价值、点击流日志分析需求业务模型指标体系设计——流量分析、来源分析、受访分析、访客分析、转化率分析2.3.3 系统设计及开发1. 系统架构设计2. 数据采集设计及开发——数据格式、数据内容分析、数据生成规律、采集系统技术选型解析、FLUME采集系统实现3. 数据存储设计及开发——存储技术选型、存储业务流程解析、存储目录规划及文件命名规则、小文件合并实现4. 数据统计设计及开发——数据预处理、数据加载、原始数据表的创建、数据入库、数据ETL5. 报表统计设计——数据模型设计、事实表设计、维度表梳理6. 业务指标设计及开发——PV统计(时间维度、终端维度、地域维度)、来访次数统计(时间维度、地域维度、终端维度)、独立访客统计(时间维度、终端维度、地域维度)、受访页面统计(时间维度、栏目维度)、页面热点图、转化率分析、来源关键词分析、来源分析、来源广告推广分析2.3.4 任务调度系统设计实现任务调度单元实现、各环节任务运行频次及依赖关系梳理、工作流设计及实现、工作流定义配置上传部署、工作流启动即状态监控2.3.5 数据可视化——结果报表展现1. hive分析结果使用sqoop导出到msyql数据库2. 报表展现系统技术选型:后台使用spingmvc spring mybatis前端页面使用全静态异步刷新技术jQuery Echarts3. web展现程序架构搭建,使用maven构建项目工程4. web展现程序页面设计开发:原型页面设计、js代码开发5. 最终实现以下数据可视化效果:(1)流量概况可视化效果:(2)来源地域分析可视化效果:(3)来源类型分析可视化效果:3.Storm实时计算部分阶段实时课程分为两个部分:流式计算核心技术和流式计算计算案例实战。1.流式计算核心技术流式计算核心技术主要分为两个核心技术点:Storm和Kafka,学完此阶段能够掌握Storm开发及底层原理、Kafka的开发及底层原理、Kafka与Storm集成使用。具备开发基于storm实时计算程序的技术能力。学完此阶段可掌握的核心能力:(1)、理解实时计算及应用场景(2)、掌握Storm程序的开发及底层原理、掌握Kafka消息队列的开发及底层原理(3)、具备Kafka与Storm集成使用的能力学完此阶段可解决的现实问题:具备开发基于storm的实时计算程序的能力学完此阶段可拥有的市场价值:具备实时计算开发的技术能力、但理解企业业务的能力不足1.1、流式计算一般结构2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,Hadoop不仅可以用来存储海量数据,还以用来计算海量数据。因为其高吞吐、高可靠等特点,很多互联网公司都已经使用Hadoop来构建数据仓库,高频使用并促进了Hadoop生态圈的各项技术的发展。一般来讲,根据业务需求,数据的处理可以分为离线处理和实时处理,在离线处理方面Hadoop提供了很好的解决方案,但是针对海量数据的实时处理却一直没有比较好的解决方案。就在人们翘首以待的时间节点,storm横空出世,与生俱来的分布式、高可靠、高吞吐的特性,横扫市面上的一些流式计算框架,渐渐的成为了流式计算的首选框架。如果庞麦郎在的话,他一定会说,这就是我要的滑板鞋!上图是流式分析的一般架构图,抽象出四个步骤就是数据采集、数据缓冲、数据处理、数据输出。一般情况下,我们采用Flume kafka Storm Redis的结构来进行流式数据分析。实时部分的课程主要是针对Kafka、Storm进行学习1.2、流式计算可以用来干什么一淘-实时分析系统:实时分析用户的属性,并反馈给搜索引擎。最初,用户属性分析是通过每天在云梯上定时运行的MR job来完成的。为了满足实时性的要求,希望能够实时分析用户的行为日志,将最新的用户属性反馈给搜索引擎,能够为用户展现最贴近其当前需求的结果。携程-网站性能监控:实时分析系统监控携程网的网站性能。利用HTML5提供的performance标准获得可用的指标,并记录日志。Storm集群实时分析日志和入库。使用DRPC聚合成报表,通过历史数据对比等判断规则,触发预警事件。一个游戏新版本上线,有一个实时分析系统,收集游戏中的数据,运营或者开发者可以在上线后几秒钟得到持续不断更新的游戏监控报告和分析结果,然后马上针对游戏的参数和平衡性进行调整。这样就能够大大缩短游戏迭代周期,加强游戏的生命力。实时计算在腾讯的运用:精准推荐(广点通广告推荐、新闻推荐、视频推荐、游戏道具推荐);实时分析(运营数据门户、效果统计、订单画像分析);实时监控(实时监控平台、游戏内接口调用)为了更加精准投放广告,阿里妈妈后台计算引擎需要维护每个用户的兴趣点(理想状态是,你对什么感兴趣,就向你投放哪类广告)。用户兴趣主要基于用户的历史行为、用户的实时查询、用户的实时点击、用户的地理信息而得,其中实时查询、实时点击等用户行为都是实时数据。考虑到系统的实时性,阿里妈妈使用Storm维护用户兴趣数据,并在此基础上进行受众定向的广告投放。1.3、Storm核心技术点基础技术点linux环境准备、zookeeper集群搭建、Storm集群搭建、Storm配置文件配置项讲解、集群搭建常见问题解决。Storm练习案例根据蚂蚁金服提供的最新数据,今年双十一的交易峰值为8.59万笔/秒,是去年3.85万笔/秒的2.23倍。这一数据也超过了6万笔/秒的预估。如何实时的计算订单金额,让公司领导层看到呢?(图为双十一支付宝成交金额)Storm基础及原理Storm常用组件和编程API:Topology、 Spout、Bolt、Storm分组策略(stream groupings)、Storm项目maven环境搭建、使用Strom开发一个WordCount例子、Storm程序本地模式debug、Storm消息可靠性及容错原理、Storm任务提交流程、Strom消息容错机制。(图为storm组件)1.4、Kafka核心技术点Storm结合消息队列Kafka:消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程API、Kafka负载均衡、Kafka消息存储原理等。(图为Kafka消息队列原理)2.流式计算案例实战实战案例部分主要有三个企业实战案列,分别是基于点击流的日志分析系统、基于系统日志的监控告警系统、基于订单系统的交易风控系统,三个案列是企业中的典型项目。学完此阶段能够独立根据企业的业务性质开发相关的storm程序。学完此阶段可掌握的核心能力:1、掌握企业核心业务需求2、掌握实时系统常见的开发流程及运营经验学完此阶段可解决的现实问题:可以独立开发storm程序来满足业务需求学完此阶段可拥有的市场价值:熟练学习和掌握后,可满足企业开发的初级需求,根据市场反馈数据看,薪资普遍在 元/月。2.1、案例:流量日志分析流量日志分析之漏斗模型:大型电商网站,上亿规模的用户,千万级别的活跃用户,如何评估一个商品专题页面的效果好不好呢?比如:浏览次数、加入购物车次数、下单次数、支付次数、完成。(图为日志分析漏斗模型-数据部必备)流量日志分析之基础数据分析:电商网上商品数量在千万级别,店铺数量在百万级别,如何实时的计算一个每个商品页的访问数、用户数、来源信息等基础信息呢?如何实时的计算每个店铺的访问数、用户数、来源信息等基础数据呢?(图为页面浏览分析-数据部必备)2.2、案例:统一监控告警系统随着公司业务发展,支撑公司业务的各种系统越来越多,为了保证公司的业务正常发展,急需要对这些线上系统的运行进行监控,做到问题的及时发现和处理,最大程度减少对业务的影响。不同业务的会有几十上百台服务器去支撑,大型企业可能是成千上万台服务器,那么每台服务器的硬件状态、业务应用状态如何实时的监控,做到及时发现,快速解决问题呢?(图为企业产生日志的系统清单)统一监控系统触发的短信告警统一监控系统触发的邮件告警2.3、案例:交易风控系统电子商务是以互联网络为平台的贸易新模式,它的一个最大特点是强调参加交易的各方和所合作的伙伴都要通过Internet密切结合起来,共同从事在网络环境下的商业电子化应用。用户信息容易受到计算机病毒、黑客的攻击,商业信息和数据易于搭截侦听、口令试探和窃取,为了防止用户信息异常给商家和用户带来不必要的损失,企业期望针对用户的订单进行分析,对触发规则的订单进行风险预警,在必要情况下进行拦截及锁定订单。(图为订单异常拦截)4.Spark内存计算阶段学完此阶段可掌握的核心能力:1.掌握Scala函数式编程特性,熟练使用Scala开发程序,可以看懂其他用Scala编写源码。2.搭建Spark集群、使用Scala编写Spark计算程序,熟练掌握Spark原理,可以阅读Spark源码。3.理解DataFrame和RDD之间的关系,熟练使用DataFrame的API,熟练使用Spark SQL处理结构化数据,通过Spark SQL对接各种数据源,并将处理后结果写回到存储介质中。4.理解Spark Streaming的核心DStream,掌握DStream的编程API并编写实时计算程序。学完此阶段可解决的现实问题:熟练使用Scala快速开发Spark大数据应用,通过计算分析大量数据,挖掘出其中有价值的数据,为企业提供决策依据。学完此阶段可拥有的市场价值:学习完spark并掌握其内容,将具备中级大数据工程师能力,薪水可以达到 20K~25K。1.Scala函数式编程介绍:Scala是一门集面向对象和函数式编程与一身的编程语言,其强大的表达能力、优雅的API、高效的性能等优点受到越来越多程序员的青睐。Spark底层就是用Scala语言编写,如果想彻底掌握Spark,就必须学好Scala。案例:Scala编程实战,基于Akka框架,编写一个简单的分布式RPC通信框架2.使用Spark处理离线数据介绍:Spark是基于内存计算的大数据并行计算框架,具有高容错性和高可伸缩性,可以在大量廉价硬件之上部署大规模集群,在同等条件下要比Hadoop快10到100倍。3.使用Spark SQL处理结构化数据介绍:Spark SQL的前身是Shark,专门用来处理结构化的数据,类似Hive,是将SQL转换成一系列RDD任务提交到Spark集群中运行,由于是在内存中完成计算,要比hive的性能高很多,并且简化了开发Spark程序的难度同时提高了开发效率。4.使用Spark Streaming完成实时计算介绍:Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。另外Spark Streaming也能和MLlib()以及Graphx完美融合5.Spark综合项目:介绍:该项目使用了Spark SQL和Spark Streaming对游戏整个生命周期产生的数据进行了分析,从玩家第一次登录游戏到每天产生的游戏日志,通过大量的数据来分析该游戏的运营情况和玩家的各种行为:如活跃用户、用户留存、充值比例、游戏收人、外挂分析等。通过玩家登录游戏产生的数据分析一天之内各个时间段进入游戏的情况通过玩家登陆游戏产生的数据分析玩家在全国地区的分步情况,调整广告投放策略用户留存指标可以分析游戏对玩家的吸引力,分析用户流失原因用户等级信息可以分析玩家等等级分布情况、调整装备爆率和游戏难度通过上面游戏各个数据指标的分析,可以让游戏运维者了解游戏的运维情况,为运维者提供各种个性化的调整策略,从而保证游戏健康、稳定的运营。勤劳活泼,鸡汁勇敢&&&大数据是什么?来看看维基百科的定义大数据(英语:Big data或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。上面那段看起来比较绕,可以一起看看通俗解释:如果你是负责做淘宝网的产品推荐工作的,想知道购买首饰的用户是否也会购买电子产品,然后再决定是否给三星做推荐。在这种条件下就需要调用前一段时间(例如一年)的用户数据,只有通过大量数据的证明才能确认两者是否有关联性,如果使用传统数据处理方法,就会耗费大量时间,等确认正相关的时候,三星的促销期都已经过去了,而像淘宝、京东等每天数据量动辄以TB计数,要迅速处理、分析并给出精准恰当的投放推荐,这就是大数据的作用。&&&与大数据相关的工作?在美国,与大数据相关的职位统称为“数据科学家”;而在国内,与大数据相关的岗位则细分得多,主要分为数据分析、数据挖掘、数据工程师、数据架构师四类。·数据分析:运用工具,提取、分析、呈现数据,实现数据的商业意义·数据挖掘:机器学习,算法实现·数据工程师:开发运用简单数据工具,实现数据建模等功能,需要业务理解·数据架构师:高级算法设计与优化;数据相关系统设计与优化,有垂直行业经验最佳&&&大数据学习?·统计学·计算机(或许还能加上点机器学习的知识)这两门学科是大数据基础中的基础,跨过这两道坎就有了从事大数据工作的资格。所以也有人说,大数据工程师是一个精通统计学的程序员,而不会编程的统计狗也不是好的大数据专家。统计学:多元统计分析、应用回归计算机:R、python、SQL、数据分析、机器学习matlab和mathematica两个软件也是需要掌握的,前者在实际的工程应用和模拟分析上有很大优势,后者则在计算功能和数学模型分析上十分优秀,相互补助可以取长补短。1、视频习惯网上学习的,可以参考如下资源:·Coursera:数据分析计算:网络智能与大数据:MATLAB程序开发入门:Python交互式编程:算法思想:机器学习:全英文授课,分别针对每个不同领域,适合深度学习Coursera就不用多介绍了吧,基本是国内支持最棒的国外MOOC课程平台了像机器学习这门课程,建议没有编程基础的文科生们慎学,可能会hold不住难度=。=·网易云课堂: 英文授课中文字幕,成体系化,相对集中便于速成学术出版商wiley制作的课程(学术狗们可能因为查文献什么的更了解wiley),在专业领域的权威性和前沿性能得到保证。但学习这门课程需要有一定的程序设计基础经验,熟悉基本的 SQL 语句,初级程序员进阶可以考虑。2、书籍《商务与经济统计学》:Statistics for Business and
Economics詹姆斯·麦克拉夫博士写的,如果没记错的话,现在中文版已经出到第十版了吧,这本书在统计学知识和联系实际案例上都做得不错,遇到过好几个统计学专业的同学都推荐这本书。《R语言实战》:R in Action卡巴科弗教授撰写,R语言界公认的圣经,因为中文翻译蛮通俗,在讲案例的时候还会重复延伸到基础知识,死磕起来也不会太费劲,能让人以最快的速度进入R语言的世界。《深入浅出数据分析》:Head First Data Analysis对就是这本名声在外、像砖头一样的书,但他字大行稀,而且插图满天飞,最重要的是讲的真的超简单,根本不用担心看不懂,入门必备。要是觉得纸质书88元太贵就弄个PDF看吧,估计也是看一遍就能搞定知识点的。《利用PYTHON进行数据分析》:Python for Data Analysis也是入门级教材,全书最后还附了一个大约三十页篇幅的Python快速入门,总觉得是个极大的萌点。3、其他豆列:Road to
Data Scientist 数据科学家之路是一个很好的学习资料索引,如果英文水平还不错可以去这里找原版看。书籍:《大数据时代:生活、工作与思维的大变革》:Big Data:A Revolution That
Will Transform How We Live, Work, and Think关于大数据对社会、生活、思维影响的书,如果前面推荐的书是从技术入门,那这本书就从感性的角度解释了大数据。书比较厚,有些重复的话可以忽略。。。论坛:大数据中国关于大数据在国内的进展、大数据研究、应用、资讯等都有,可以了解整个行业的动态。 实践:
自己装个Cassandra之类的数据库,在上面弄个小项目试试,看看自己能力如何最后加个自己的微信公众号:naogustudy刚刚开始运营,戳我每天学点新技能(●'?'●)? (二维码自动识别)分析师问问题前可以花几秒钟看一下知乎上有没有类似问题,这是基本常识。<div data-state='{&env&:{&isWechat&:false,&isQQNews&:false,&isAppView&:false,&appViewConfig&:null,&deployEnv&:&production&,&isBaiduSpecial&:false,&userAgent&:{&Edge&:false,&Wechat&:false,&Weibo&:false,&QQ&:false,&Mobile&:true,&Android&:false,&iOS&:true,&isAppleDevice&:true,&Zhihu&:false,&isBot&:false,&isWebView&:false}},&timestamp&:6,&currentUser&:null,&questions&:{&&:{&status&:{&isLocked&:false,&isClose&:false,&isEvaluate&:false,&isSuggest&:false},&visitCount&:304659,&relationship&:{&isAuthor&:false,&isFollowing&:false,&isAnonymous&:false},&topics&:[{&introduction&:&数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程。&,&avatarUrl&:&https://pic1.zhimg.com/3d11abd48_is.jpg&,&name&:&数据挖掘&,&url&:&http://www.zhihu.com/api/v4/topics/&,&type&:&topic&,&excerpt&:&数据挖掘(Data mining)一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息和知识的过程。&,&id&:&&},{&introduction&:&数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。&,&avatarUrl&:&https://pic2.zhimg.com/afa4afb3d_is.jpg&,&name&:&数据分析&,&url&:&http://www.zhihu.com/api/v4/topics/&,&type&:&topic&,&excerpt&:&数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。&,&id&:&&},{&introduction&:&“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让可以自动“”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。很多问题属于,所以部分的机器学习研究是开发容易处理的近似算法。”——中文维基百科&,&avatarUrl&:&https://pic1.zhimg.com/d3dd87a0feae0a3dbeee89c0_is.png&,&name&:&机器学习&,&url&:&http://www.zhihu.com/api/v4/topics/&,&type&:&topic&,&excerpt&:&“机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机 可以自动“学习 ”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的…&,&id&:&&},{&introduction&:&&,&avatarUrl&:&https://pic1.zhimg.com/e82bab09c_is.jpg&,&name&:&专业书籍推荐&,&url&:&http://www.zhihu.com/api/v4/topics/&,&type&:&topic&,&excerpt&:&&,&id&:&&},{&introduction&:&从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。&,&avatarUrl&:&https://pic4.zhimg.com/9ebd98cf7_is.jpg&,&name&:&大数据&,&url&:&http://www.zhihu.com/api/v4/topics/&,&type&:&topic&,&excerpt&:&从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”,或者说特点有四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快。&,&id&:&&}],&adminClosedComment&:false,&except&:&请问有什么好的方式、材料、心得等?&,&isEditable&:false,&answerCount&:36,&id&:,&author&:{&isFollowed&:false,&avatarUrlTemplate&:&https://pic2.zhimg.com/aadd7b895_{size}.jpg&,&type&:&people&,&name&:&匿名用户&,&isAdvertiser&:false,&url&:&http://www.zhihu.com/api/v4/people/0&,&urlToken&:&&,&userType&:&people&,&headline&:&&,&avatarUrl&:&https://pic2.zhimg.com/aadd7b895_is.jpg&,&isFollowing&:false,&isOrg&:false,&gender&:1,&badge&:[],&id&:&0&},&url&:&http://www.zhihu.com/api/v4/questions/&,&commentPermission&:&all&,&created&:,&detail&:&请问有什么好的方式、材料、心得等?&,&updatedTime&:,&isReportable&:true,&redirection&:{&to&:{},&from&:[]},&commentCount&:3,&allowDelete&:false,&draft&:{},&questionType&:&normal&,&followerCount&:5919,&title&:&怎样进行大数据的入门级学习?&,&canComment&:{&status&:true,&reason&:&&},&type&:&question&,&suggestEdit&:{&status&:false,&reason&:&&},&isNormal&:true}},&answers&:{&&:{&isCopyable&:false,&excerpt&:&我在去年年底的时候曾应一位前辈的要求,写了一个学习“数据科学:从入门到进阶”的经验贴,我就直接把它贴在下面了。虽然题主问的是大数据的入门,但在我看来“大数据”就是数据科学的一个高阶状态。以下内容中除个别情况,我基本上都会使用“数据科学”这…&,&thumbnail&:&&,&createdTime&:,&id&:,&thanksCount&:736,&canComment&:{&status&:true,&reason&:&&},&isCollapsed&:false,&author&:{&isFollowed&:false,&avatarUrlTemplate&:&https://pic2.zhimg.com/v2-6bba5b477c1aaa7813dad9_{size}.jpg&,&badge&:[],&name&:&郭小贤&,&isAdvertiser&:false,&url&:&http://www.zhihu.com/api/v4/people/ff9484dc86&,&urlToken&:&guo-xiao-xian-24&,&userType&:&people&,&headline&:&统计套利 | 算法交易 | 机器学习 | 数据科学&,&avatarUrl&:&http://image107.360doc.com/DownloadImg/0/.jpg&,&isFollowing&:false,&isOrg&:false,&gender&:1,&type&:&people&,&id&:&ff9484dc86&},&url&:&http://www.zhihu.com/api/v4/answers/&,&question&:{&author&:{&isFollowed&:false,&avatarUrlTemplate&:&https://pic2.zhimg.com/aadd7b895_{size}.jpg&,&badge&:[],&name&:&匿名用户&,&isAdvertiser&:false,&url&:&http://www.zhihu.com/api/v4/people/0&,&urlToken&:&&,&userType&:&people&,&headline&:&&,&avatarUrl&:&https://pic2.zhimg.com/aadd7b895_is.jpg&,&isFollowing&:false,&isOrg&:false,&gender&:1,&type&:&people&,&id&:&0&},&url&:&http://www.zhihu.com/api/v4/questions/&,&created&:,&updatedTime&:,&questionType&:&normal&,&title&:&怎样进行大数据的入门级学习?&,&type&:&question&,&id&:},&updatedTime&:,&content&:&我在去年年底的时候曾应一位前辈的要求,写了一个学习“数据科学:从入门到进阶”的经验贴,我就直接把它贴在下面了。虽然题主问的是大数据的入门,但在我看来“大数据”就是数据科学的一个高阶状态。以下内容中除个别情况,我基本上都会使用“数据科学”这个概念。---------------------------------正
文-----------------------------------数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。但从狭义上来看,我认为数据科学就是解决三个问题:1. data pre-2. data interpretation;3.data modeling and analysis. 这也就是我们做数据工作的三个大步骤:1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;2、我们想看看数据“长什么样”,有什么特点和规律;3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。这三个步骤未必严谨,每个大步骤下面可能依问题的不同也会有不同的小步骤,但按我这几年的经验来看,按照这个大思路走,数据一般不会做跑偏。这样看来,数据科学其实就是门复合型的技术,既然是技术就从编程语言谈起吧,为了简练,只说说R和Python。但既然是荐数据科学方面的书,我这里就不提R/Python编程基础之类的书了,直接上跟数据科学相关的。R programming如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本:R in action:我的R语言大数据101。其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭。但如果配合上一些辅助材料,如官方发布的R basics(),stackoverflow上有tag-R的问题集(的网页展示他的数据可视化作品,这本书告诉你该选择什么样的可视化工具,然后告诉你怎样visualize关系型数据、时间序列、空间数据等,最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么,可以直接点开下面这个链接感受下吧!A tour through the visualization zoo()Machine Learning & Data Mining这一块就不多说了,不是因为它不重要,而是因为它太太太重要。所以这一部分就推两本书,都是”世界名著“,都比较难读,需要一点点地啃。这两本书拿下,基本就算是登堂入室了。其实作为机器学习的延伸和深化,概率图模型(PGM)和深度学习(deep learning)同样值得研究,特别是后者现在简直火得不得了。但PGM偏难,啃K.Daphne那本大作实在太烧脑,也没必要,而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大,各个domain的应用如火如荼,但要有公认的好教材问世则还需时日,所以PGM和deep learning这两块就不荐书了。The Element of Statistical Learning:要学机器学习,如果让我只推荐一本书,我就推荐这本巨著。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了,大厦建得够高够大,结构也非常严谨,而且很有前瞻性,纳入了很多前沿的内容,而不仅仅是一部综述性的教材。(图表也做得非常漂亮,应该是用R语言的ggplot2做的。)这本书注重讲解模型和算法本身,所以需要具备比较扎实的数理基础,啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习(统计学习)的库现在已经非常丰富,即使你没有完全搞懂某个模型或算法的原理和过程,只要会用那几个库,机器学习也能做得下去。但你会发现你把数据代进去,效果永远都不好。但是,当你透彻地理解了模型和算法本身,你再调用那几个库的时候,心情是完全不一样的,效果也不一样。Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋,之所以推荐这本韩家炜爷爷的,是因为虽然他这本书的出发点是应用,但原理上的内容也一点没有落下,内容非常完整。而且紧跟时代,更新的很快,我看过的是第二版,就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了,我还没看过,但应该也加入了不少新内容。其实这本书并不难读,只是篇幅较长,啃起来比较耗时。其实这两本书里单拎出来一块内容可能又是几本书的节奏,比如bayesian方法,再拿出两三本书来讲也不为过,我个人用到的比较多,而且也确实有不少好书。但并非是所有data scientist都要用到,所以这一块就不再细说。还有一些印象比较深刻的书:Big Data Glossary: 主要讲解大数据处理技术及工具,内容涵盖了NoSQL,MapReduce,Storage,Servers,NLP库与工具包,机器学习工具包,数据可视化工具包,数据清洗,序列化指南等等。总之,是一本辞典式的大数据入门指导。Mining of Massive Datasets:这本书是斯坦福大学Web Mining的讲义,里面很多内容与韩家炜的Data Mining那本书重合,但这本书里详细地讲了MapReduce的设计原理,PageRank(Google创业时期的核心排序算法,现在也在不断优化更新)讲解得也比较详细。Developing Analytic Talent: 作者是个从事了十几年数据工作的geek,技术博客写得很有个人风格,写的内容都比较偏门,通常只有具备相关数据处理经验的人能体会出来,丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办,或者MapReduce在什么时候不好用的问题,才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结,用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。Past, Present and Future of Statistical Science:这本书是由COPSS(统计学社主席委员会,由国际各大统计学会的带头人组成)在50周年出版的一本纪念册,里面有50位统计学家每人分别贡献出的一两篇文章,有的回忆了自己当年如何走上统计学这条路,有的探讨了一些统计学的根本问题,有的谈了谈自己在从事的前沿研究,有的则给年轻一代写下了寄语。非常有爱的一本书。其它资料Harvard Data Science:这是H大的Data science在线课,我没有修过,但口碑很好。这门课需要费用8千刀左右,比起华盛顿大学的4千刀的Data science在线课虽贵一倍,但比斯坦福的14千刀要便宜将近一半(而且斯坦福的更偏计算机)。如果想自学,早有好心人分享了slides: ()和homeworks and solutions: ()PyData:PyData是来自各个domain的用Python做数据的人每年举行一次的聚会,期间会有各路牛人举行一些规模不大的seminar或workshop,有好心人已经把video上传到github,有兴趣的去认领吧()工具R/Python/MATLAB(必备):如果是做数据分析和模型开发,以我的观察来看,使用这三种工具的最多。R生来就是一个统计学家开发的软件,所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具,但因为很多人不是专业做数据的,做数据还是为了自己的domain expertise(特别是科学计算、信号处理等),而MATLAB又是个强大无比的Domain expertise工具,所以很多人也就顺带让MATLAB也承担了数据处理的工作,虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件,但作为一个面向对象的高级动态语言,其开源的生态使Python拥有无比丰富的库,Numpy, Scipy 实现了矩阵运算/科学计算,相当于实现了MATLAB的功能,Pandas又使Python能够像R一样处理dataframe,scikit-learn又实现了机器学习。SQL(必备):虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展,但对于很多人来说,他们每天都有处理数据的需要,但可能一辈子都没机会接触TB级的数据。不管怎么说,不论是用关系型还是非关系型数据库,SQL语言是必须要掌握的技能,用什么数据库视具体情况而定。MongoDB(可选):目前最受欢迎的非关系型数据库NoSQL之一,不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用,扩展性强,Web2.0时代的必需品。Hadoop/Spark/Storm(可选): MapReduce是当前最著名也是运用最广泛的分布式计算框架,由Google建立。Hadoop是基于MapReduce的框架建立起来的分布式计算系统,Spark在Map Reduce的基础上利用有向无环图构建了RDD,目的就是为了减少Map和Reduce之间的数据交换次数,所以速度就快了。另一个区别就是,Hadoop用硬盘存储数据,Spark用内存存储数据,Storm只接受实时数据流而不存储数据。Hadoop因为“历史”最为悠久,有不少技术和产品都是基于Hadoop开发的,所以在较长的时间内Hadoop并不会不会被淘汰。而Spark是目前生态最好,最活跃的分布式框架。如果刚刚起步研究分布式计算,可从Spark入手。OpenRefine(可选):Google开发的一个易于操作的数据清洗工具,可以实现一些基本的清洗功能。Tableau(可选):一个可交互的数据可视化工具,操作简单,开箱即用。而且图表都设计得非常漂亮。专业版1999美刀,终身使用。媒体和公关方面用得比较多。Gephi(可选):跟Tableau类似,都是那种可交互的可视化工具,不需要编程基础,生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。------------------------------------正
完-----------------------------------------除了比较难找到资料给出链接之外,其余都需要各位自己动手了。也请多多支持正版。刚开通了值乎,欢迎来扰。 (二维码自动识别)&,&commentCount&:51,&extras&:&&,&voteupCount&:1443,&type&:&answer&,&suggestEdit&:{&status&:false,&reason&:&&,&title&:&&,&url&:&&,&unnormalDetails&:{},&tip&:&&},&isNormal&:true},&&:{&isCopyable&:true,&excerpt&:&最有用的三点: - 多看书; - 多写代码; - 多交流。 ---------------- 看书的方面,@ 的答案里列得已经非常详细了,确实都是经典。补充基本个人感觉比较有价值的: Toby Segaran (2007) Programming Collective Intelligence, O'Reilly …&,&thumbnail&:&&,&createdTime&:,&id&:,&thanksCount&:28,&canComment&:{&status&:true,&reason&:&&},&isCollapsed&:false,&author&:{&isFollowed&:false,&avatarUrlTemplate&:&https://pic1.zhimg.com/da8e974dc_{size}.jpg&,&badge&:[],&name&:&知乎用户&,&isAdvertiser&:false,&url&:&http://www.zhihu.com/api/v4/people/0&,&urlToken&:&&,&userType&:&people&,&headline&:&&,&avatarUrl&:&http://image107.360doc.com/DownloadImg/0/.jpg&,&isFollowing&:false,&isOrg&:false,&gender&:1,&type&:&people&,&id&:&cbb7184daceea977a964a3aff5ac6743&},&url&:&http://www.zhihu.com/api/v4/answers/&,&question&:{&author&:{&isFollowed&:false,&avatarUrlTemplate&:&https://pic2.zhimg.com/aadd7b895_{size}.jpg&,&badge&:[],&name&:&匿名用户&,&isAdvertiser&:false,&url&:&http://www.zhihu.com/api/v4/people/0&,&urlToken&:&&,&userType&:&people&,&headline&:&&,&avatarUrl&:&https://pic2.zhimg.com/aadd7b895_is.jpg&,&isFollowing&:false,&isOrg&:false,&gender&:1,&type&:&people&,&id&:&0&},&url&:&http://www.zhihu.com/api/v4/questions/&,&created&:,&updatedTime&:,&questionType&:&normal&,&title&:&怎样进行大数据的入门级学习?&,&type&:&question&,&id&:},&updatedTime&:,&content&:&最有用的三点: - 多看书; - 多写代码; - 多交流。----------------看书的方面,@ 的答案里列得已经非常详细了,确实都是经典。补充基本个人感觉比较有价值的:Toby Segaran (2007) Programming Collective Intelligence, O'ReillyJoel Grus (2015) Data Science from Scratch, O'ReillyRussell Jurney (2013) Agile Data Science, O'Reilly以上三本书的共同特点是,不拘泥于具体技术细节,而是通过实例描述了end to end的整套大数据流程,同时又提供了非常down to earth的代码,让读者能够马上上手实践。回国工作一段时间,有个比较突出的体会:国内的技术人才绝大部分基础扎实,能力很强,对各种技术如数家珍,上手都非常快,比起国外同行稍显薄弱的是分析实际业务问题,建立Technology Stack来解决之的能力。以上推荐的三本书有助于培养这方面的能力。做为Data Scientist,本人关注的主要是Data Science相关方向的资料。和题主问题略有出入,望海涵。---------------写代码的方面,公司或研究所有现成的环境是最好的。如果没有,自己看书在云端搭一个。现在云服务已然是白菜价,这些投资会物超所值。不知道题主说的入门级是有多基础,如果Linux, Git, Vim还不会的话,首先补上这几课。有了环境,选一本自己能看得下去的书,跟着把里面的例子跑一遍,弄懂每行代码是干嘛的。[ 08/28/2015 ] 评论有朋友问新手编程如何入门。 赞同
的回复,再补充几点:如果完全没有编程基础,目标又是数据科学方向(而非软件工程师),不推荐从C族语言(C/C /Java/C#)起步。直接学Python,容易入门,很快能在实际工作中用上。高票答案中推荐了一些Python的书都不错。Think Python是非常好的入门书,每章的例子都很短小精悍,容易理解,自己敲一遍,再把每章的习题做一做,Python入门基本就没问题。Think Python的问题是教材气重了些。如果需要写复用度高的,健壮的代码,推荐和这本结合看:Practical Python。手机党查资料不方便,这里就不给链接了。回到电脑前再补充。---------------交流的方面,多参加一些线下活动,认识朋友。多刷Stack Overflow, Quora。Youtube上的各种讲座,会议,教程,多到你不敢相信。Slidesshare欢迎补充。需要讲得详细些的地方,欢迎留言。&,&commentCount&:4,&extras&:&&,&voteupCount&:37,&type&:&answer&,&suggestEdit&:{&status&:false,&reason&:&&,&title&:&&,&url&:&&,&unnormalDetails&:{},&tip&:&&},&isNormal&:true}},&answersOffset&:2,&questionId&:,&answerIds&:[47353],&restAnswerIds&:[],&isLoading&:false,&isDrained&:false,&isModalOpen&:false,&adBanner&:null,&appViewFooter&:null,&isCommentLoading&:false,&commentsByQuestion&:{},&commentsByAnswer&:{},&relatedLives&:{},&isRegisterPanelOpen&:false,&video&:{},&recommendations&:null,&relatedReadings&:[],&recommendedContents&:[],&settings&:{&experiment&:{&topnavbarQrcode&:&topnavbar_qrcode_hide&,&ge2&:&ge2_1&,&recommendReadingsOnShare&:&wx_share_algo_recommend&,&nwebStickySidebar&:&sticky&,&homeNweb&:&default&,&ge120&:&ge120_2&,&favAct&:&default&,&default&:&None&,&newMore&:&new&,&qrcodeLogin&:&qrcode&,&qaLiveRecommendation&:&recommended_by_rule&,&ge3&:&ge3_9&,&qaStickySidebar&:&sticky_sidebar&,&liveStore&:&ls_a2_b2_c1_f2&,&zcmLighting&:&zcm&}},&answerRewarders&:[],&token&:{&xUDID&:&&}}' data-config='{&apiAddress&:&https://www.zhihu.com/api/v4/&}'>
TA的最新馆藏
喜欢该文的人也喜欢}

我要回帖

更多关于 如何获取大数据 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信