我怎样成为数据科学家修炼之道

数据科学家可能成为2015年最热门职业
[摘要]招聘网站报告称,数据科学家的平均年薪为11.9万美元,而程序员的平均年薪为6.5万美元,差距由此可见。
腾讯科技讯 1月3日,你擅长数学,会用Python编程,而且还对某个行业了如指掌?如果你拥有这样的技能集,那你就有可能当上数据科学家。而如果你当上了数据科学家,那你的日子就可以过得风风光光了——LinkedIn的最新投票结果显示,“统计分析和数据挖掘” 是2014年最大的求职法宝。美国招聘网站Glassdoor的报告称,数据科学家的平均年薪为118709美元(约合人民币737550元),而程序员的平均年薪为64537美元(约合人民币400974元)。麦肯锡公司的一份研究预测称,到2018年,在“具有深入分析能力的人才”方面,美国可能面临着14万到19万的缺口,而“可以利用大数据分析来做出有效决策的经理和分析师” 缺口则会达到150万。该领域目前异常火爆,纽约大学数据中心课程的负责人罗伊-洛伦斯(Roy Lowrance)表示,现在可能已经到了巅峰期。“也许存在着泡沫,” 他说。 “无论什么事情,一旦变得这样火爆,之后就肯定就会冷下来。”不过,纽约大学希望在未来几年里扩大数据科学课程的招生规模,把学生人数从40名增加到60名。本学年还有五个月才会结束,但50%到75%的学生已经找到了比较理想的工作。为什么该领域会变得如此火爆?琳达-博奇(Linda Burtch)是芝加哥的猎头公司博奇工程的董事总经理,她表示,尽管像()、、Netflix和Uber这样的高科技公司都有自己的数据科学团队,但那些非高科技公司,比如Neiman Marcus、沃尔玛、Clorox和Gap,它们现在也需要使用这方面的人才,“很多公司都在物色数据科学家,”她说。这些公司希望,数据科学专业人才可以挖掘新的信息,来帮助公司开源节流。负责大数据业务的副总裁Anjul Bhambhri表示,航空制造商Pratt & Whitney现在可以预测出飞机发动机何时需要进行维护,准确率达到97%,这可以帮助它更加有效地开展业务。虽然IBM在本月刚刚推出了基于云计算的Watson Analytics免费增值工具,但是,为了分析非结构化数据,数据科学家常常不得不亲自动手编写专门的软件程序,这正是数据科学家必须掌握编程技巧的一个原因。学校教育洛伦斯说,数据科学家需要具备三项基本技能:数学/统计、计算机能力、在特定业务领域的知识。纽约大学数据科学中心希望招收至少具备其中一种技能的学生,然后培养他们掌握其他技能,让学生到毕业的时候,可以独当一面负责处理数据工作。 “在学习过程中,他们要做一些数据科学项目,这些项目需要他们用到这三种技能,”他说。但是,如果你想成为一名数据科学,也不一定非得去大学读书才行。从今年9月开始,一家名为梅蒂斯(Metis)的公司开始在纽约举办为期十二周的数据科学训练营,费用为1.4万美元。报名的人非常之多,入学竞争相当激烈。梅蒂斯公司的联合创始人杰森-莫斯(Jason Moss)说,大约有一半的学生都拥有硕士或博士学位。第一期训练营在12月初结束。莫斯说,不过几周, 15名学生中就有6名拿到了聘用通知。“我不认为训练营可以替代大学教育,”莫斯说。“训练营可以提供一条捷径,让你以最快的速度找到一份工作,但大学的目的不在于此。但我也不认为你必须上大学才能成为一名数据科学家,”他说。“有一种人,他们天生具有好奇心,有勇气,有决心,总想把事情理出头绪,他们在这一行可以干得很好。”Anmol Rajpurohit是一名独立的数据科学家兼顾问,他说,做这一行工作最重要的素质就是能够快速学习东西。“与专长于任何特定编程语言相比,泛型编程技巧远远更加重要,”他说。 “在如今这个时代,技术的发展突飞猛进,语言会很快过时,新的语言则将迅速普及。因此,学东西很快的人,会比单独领域的专家更有前途。”洛伦斯说,他认为,在某些技能方面,训练营和网上课程可以为学习者提供很大的帮助。但在另外一些方面,它们的作用就就相对有限了。纽约大学的数据科学课程有一个优势,就是可以按照正确的先后顺序来培养你的技能。“我们的教学顺序可以让你循序渐进、融会贯通地掌握技能。”他说。数据科学家要做哪些事?游戏公司Playstudios的数据科学家乔恩-格林伯格(Jon Greenberg)说:“在日常工作中,我需要管理一系列控制面板,它们提供的信息可以让公司知道,我们的生意到底做得怎么样? 用户在做什么事情?”格林伯格现在是一名经理了,所以他编程的时候没有以往那么多,但是他有时候仍然需要编程。通常来说,他把数据从Apache Hadoop的存储器里调取出来,在分析平台Revolution R上运行它,并对它进行一些可视化处理。 “比如说,我们可以从中得知一部分用户如何与新推出的功能互动,”他解释说。六年前,格林伯格拿到了统计学的硕士学位。他希望进入政府部门工作,但却惊讶地发现,公司企业非常需要数据科学家。 “那个时候,数据科学领域还没有现在这么火爆,,”他说。现在,他每天都能从猎头那里收到一个电话或一封邮件。 “这种情况不只是发生在我身上,”他说。“所有的数据科学家可能都是这样。”对于格林伯格来说,就业机会很好只是一个加分项,因为他本来就热爱这一行。 “我认为,要做数据科学工作,你必须得有分析头脑才行,而且还得有好奇心,”他说。“你必须得有灵活性和创造性,构思出不同的方法来解决问题。”这项工作的唯一缺点,格林伯格说,就是“清洁”数据(去掉那些没有相关性的结果)需要花费大量时间。“这部分任务并不是那么招人喜欢,你得花很多时间来做它。”他说。Rajpurohit说,他花了很多精力来清洁数据和做研究。 “我很大一部分时间都花在做研究上,因为我经常会遇到全新的问题,因此,我需要研究特定领域最新文献,或者是找找专家,听听他们在这方面的看法,”他说。“尽管数据科学这个名字和艺术毫不沾边,但是你需要把艺术和科学很好地结合起来。科学的部分很明显——数学,程序设计等等。但艺术部分是同样重要——创造力,对语境有着深刻的理解。把这两部分结合在一起,你就会变得善于解决问题。”尽管如此,Rajpurohit也承认,数据科学并不像眼下很多人以为的那样善良迷人。这个领域确实是在变得越来越重要,而且也出现了很多高薪机会,但在数据科学家需要做的日常工作中,有很多其实都很枯燥。你是当数据科学家的料吗?每天花大量时间来编程,分析控制面板上的数据,获得相关信息,如果你对这样的工作感兴趣,那么你可能就适合干这一行。但如果你仅仅是想拿高工资,那么你可能就会觉得这样的日子过起来苦不堪言。你要知道:真正适合干这一行的人,常常会在业余时间里编写程序,分析数据,而他们这样做只是为了自娱自乐。亚当-弗洛葛尔(Adam Flugel)是博奇公司的数据科学招聘猎头,他谈到了最近遇到的一名候选人。此人拥有博士学位,今年秋天将去电艺公司(Electronic Arts)工作。“真正让他脱颖而出的是优势是,他在空闲时间也做这种事情,而且纯粹就是为了好玩,”弗洛葛尔说。“他是多人在线游戏世界《坦克世界大战》的玩家,领导着一个玩家团队。于是他编写了一个从游戏服务器抓取数据的程序,然后进行数据分析,评估自己团队的表现。然后他利用这些信息来弄清应该如何调整自己的战略,应该招收哪些类型的成员,才能提升团队的整体表现。”所以,如果你爱的并不是数据本身,而是它可以给你带来的高薪,那么你会发现,自己很难与那样的人竞争。但是博奇说,每个人都应该学会热爱数据,即便只是为了自己事业前途着想,也该这样做。 “十年之内,如果你不是数据大咖,你就别想升到‘首席XX官’的位置上”博奇说。但是像史蒂夫-乔布斯、比尔-盖茨那样的情况又怎么解释呢?他们拥有远见卓识,并没有陷入数据科学的细枝末节之中。“那是30年前的事了,”博奇说。 “我说的是未来10年。”(Kathy)
[责任编辑:honestsun]
您认为这篇文章与"新一网(08008.HK)"相关度高吗?
Copyright & 1998 - 2016 Tencent. All Rights Reserved
还能输入140字当前位置: >>
重磅:如何不花钱就成为数据科学家?
摘要:从白宫雇佣DJ Patil作为第一位首席数据科学家到联合国运用预测分析来预报可能发生在学校中的爆炸事件,无论何时何地,大数据、数据科学和预测分析都是最热门的话题。
  每个月都有很多家创业公司如雨后春笋般出现,让我们即使耗尽想象力也难以完全理解当下的技术会如何改善我们的生活以及我们所做的一切。数据科学的市场需求巨大,增长态势也如同被打了鸡血一样极为迅猛。
  根据领英(Linkedin)的数据,&统计分析&和&数据挖掘&是今年求职者能被雇佣的头两个技能。高德纳咨询公司表示,2015年全球提供给数据科学家及其相关职位的工作机会有440万,单在美国就有190万。一个相关的工作还可以再创造三个非信息领域的工作,因此总共会产生大约1300万个职位。可问题是你要做些什么才能确保职位,梦想成真?你如何才能成为全球这440万工作机会的合格候选人?
  全球至少有50个开设数据科学学位课程的大学,学费从5万到27万美金不等,以及需要1到4年的时间。如果你正想要去读大学,这可能是一个不错的选择。比起其它类似或不那么类似的学科,数据科学有它自己独特的优势。但是,对于发展中国家的人来说,学费过于高昂;同时,对于职场人士,投入几年时间的代价很大。
  另外,也有一些不错的暑期课程、研究协会和训练营,它们承诺可以在短时间内让你成为数据科学家。这当中有一些虽然是免费的,但是很难有机会加入,而有些要求博士等高学历,还有些两个月左右的课程却要价1.5万到2.5万美金。对于即将毕业的博士生来说,这些都是能获得一些实战经验的好机会,然而我们目前还不清楚这些短期受训者是否能媲美资深的行业分析师。我个人非常喜欢其中的一些项目,比如Data
Incubator,Insight Fellowship,Metis Bootcamp,Data Sciencefor Social Goods 和著名的
Zipfian Academy 项目。
  付费资源
  在介绍如何不花钱成为数据科学家之前,我提一下我很喜欢几个的付费资源。第一个是Booz Allen公司的探索数据科学项目(Explore Data
Science program),费用是1250美元,但是物有所值。第二个是Tim Chartier 录制的《大数据:数据分析如何改变我们的世界》(Big
Data: How Data Analytics is transforming the world)DVD,只要80美元,值得一试。
  下面两个课程来自麻省理工:一个是《应对大数据的挑战》(Tackling the Big Data
Challenges),学费是500美元,这个课程为你提供了坚实的大数据理论基础;另一个是只要100美元学费的《分析学前沿》(The Analytics
Edge),课程精辟地讲解了分析法是如何被用于解决日常运营问题。如果你每天可以抽出几小时的时间,那么试试Udacity提供的针对数据分析师的Nanodegree课程,每月支付200美元,6个月左右能完成,他们和facebook、Zipfian学院和MongoDB合作提供这个课程。ThinkFul每月收费500美元的项目是有一个导师实时指导你成为数据科学家。
  那么,那些想成为数据科学家,但是负担不起或者进不了竞争激烈和收费高昂的项目的人应该怎么办呢?还有那些来自于发展中国家,想在数据科学这一重要领域提高他们的竞争力,或者即使只是尝试应用这些先进技术改善他们的周边环境、社区和国家的人又该怎么办呢?
  免费资源
  以下就是我不花一分钱成为数据科学家的&独门秘籍&:
理解数据:单纯的、没有任何背景的数据是没有意义的,也容易让人误解。数据需要有具体的背景才能说明问题。数据就像是一种颜色,需要有一个具体的外观才能证明它的存在。以红色为例,它需要一些具体的外观才能让我们看到,比如红色的汽车、红色的围巾、红色的领带、红色的鞋子或任何红色的东西。同理,数据也需要和它的环境、内容、模型、方法以及它产生、发生、使用、修改、执行和终止的整个生命周期结合在一起。
  我还没发现一个数据科学家和我谈数据的时候不提及像Hadoop、NoSQL、Tableau的技术或其它老牌供应商与流行语。你需要与你的数据建立亲密的关系,你需要彻底地了解它。问他人&你的&数据为何出现异常就像是问自己的妻子怀了谁的孩子一样荒谬。我们在与联合国的合作以及确保学校远离爆炸的相关软件中具备一个独有的优势是:对底层数据的控制力。当全世界在使用统计图表讨论这些数据时,我们是那些回家体验数据的人,让它融入我们的日常生活,这些数据的价值、细节和增值,是我们不能在其它地方找到的。对于其它的项目和客户,我们也是同样对待的。
理解数据科学家:不幸的是,&数据科学家&恰好是数据科学这个领域中最容易使人困惑和被误用的词之一。有人将其联想为知晓世间所有事情的神秘预言家;有人认为他们仅仅是统计学家;少数人认为他们只是一些熟悉Hadoop
NoSQL的人;还有人认为他们就是一些会做简单测试或是在管理会议中使用很多晦涩难懂的数学和统计学术语的人。甚至于,某些人眼中的可视化控制面板,在另一些人看来只是永无止境的ETL(Extract-Transform-Load,数据仓库技术
)过程。在我看来,数据科学家是一类比数据创造者少一些对科学的理解,比数据生成者少一点对数据的理解的人,而他们恰恰是知道如何把这两部分工作融会贯通的人。一个好的数据科学家应该知道外部有哪些资源可用,应该和哪些人联系,应该雇佣什么样的人,以及采用什么样的技术可以完成工作;可以将商业目标和数据集市(data
mart)连接起来,可以把每一个点,从商业利益到人类行为、从数据生成到付出的款项简单地联系在一起。
  3. 观看Ted网站上的这13个视频
  /playlists/56/making_sense_of_too_much_data
  4. 观看Hans Rosling的视频,理解可视化的力量
  /talks/hans_rosling_shows_the_best_stats_you_ve_ever_seen
  5. 收听PartiallyDerivative的关于数据科学的每周博客,查看博客中提供的一些有用资源
  /resources/
  6. 华盛顿大学的两个课程:
  《数据科学入门》(Introto Data Science)和《数据分析计算》(Computing for data
analysis)会是个好开头
  7. 利用GitHub上的资源,要尽量多读
  8. 浏览Measure for America网站(http://www.measureofamerica.org/),了解数据如何起作用
  9. 阅读免费图书Field Guide to Data
Sciences(/media/file/The-Field-Guide-to-Data-Science.pdf)
  责任编辑:余芯
扫一扫,订阅更多数据中心资讯
本文地址: 网友评论:
条 阅读次数:
版权声明:凡本站原创文章,未经授权,禁止转载,否则追究法律责任。
·····
随着互联网特别是移动互联网的快
主题为“精简IT,敏捷商道” 的
半导体致冷器是由半导体所组成的
“混合云”这个词内涵外延宽泛,
随着时代的发展,智慧城市建设不
伴随着互联网的高速发展及“互联转载自网络()。
怎样成为一个数据科学家?
(注:本文转载自网络)
第1节: 基础
线性代数、概率论、数据库……没错,这一坨东西都是成为一个数据科学家的基础课程。 如果你一门课都没有学过, 呵呵,不好意思,请您看看门牌号,你可能走错教室了。
这门课程将会复盖数据库设计和数据库管理方面的内容
这是一个机率的入门课程,着重的是教授机率基本概念。另外我们的作业将搭配台大电机系所开发的多人竞技线上游戏方式,让同学在游戏中快乐的学习,快速培养 同学们对于机率的洞察力与应用能力。
它的研究对象是向量,向量空间。线性变换和有限维的线性方程组。本课程讲述了矩阵理论及线性代数的基本知识,侧重于那些与其他学科相关的内容,包括方程 组、向量空间、行列式、特征值、相似矩阵及正定矩阵。
第2节: 统计学
统计学是在统计实践的基础上,自17世纪中叶产生并逐步发展起来的一门社会学科。它是研究如何测定、收集、整理、归纳和分析反映客观现象总体数量的数据, 以便给出正确认识的方法论科学,被广泛的应用在各门学科之上,从自然科学和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。
An introduction to statistical ideas and methods commonly used to make valid conclusions based on data from random samples.
An introduction to probability, with the aim of developing probabilistic intuition as well as techniques needed to analyze simple random samples.
An introduction to descriptive statistics, emphasizing critical thinking and clear communication.
This course is an introduction to the key ideas and principles of the collection, display, and analysis of data to guide you in making valid and appropriate conclusions about the world.
Statistics One is a comprehensive yet friendly introduction to statistics.
本课程分为两大部份。第一部份介绍基本的统计概念与方法及其在资料分析上之应用,例如:常用的统计指标、统计图表、常态分布及检查数据是否呈常态分布的方 法等;第二部份则是介绍由样本推论群体的方法(例如:估计群体平均值)、比较不同群体间平均数的差异(检定)、变异数分析及回归分析等方法。
第3节: 编程
数据科学家当然也得会编程,像什么Python,Java,JS,R啥的都得会点。Python和R有很多的科学计算工具集,掌握Python和R,您将 在数据的道路上的得心应手;Java 是 Hadoop的基础实现语言,大数据这么热,您也得会玩两手; 想做出漂亮动态的图表,JS有时候也得会玩。
JavaScript是一种广泛用于客户端网页开发的脚本语言,它可以用来给HTML网页添加动态功能,实现与用户的交互。它最初由网景公司设计,是一种 动态、弱类型、基于原型的语言,现在是甲骨文公司的注册商标。JavaScript是一种脚本语言,其源代码在发往客户端运行之前不需经过编译,而是将文 本格式的字符代码发送给浏览器由浏览器解释运行。 本课程通过JavaScript语言学习程序设计的基本概念:变量、计算、控制、循环、函数等,并深入理解JavaScript如何与浏览器和HTML的 诸元素协同工作。
本课程教你零基础学Python语言。
使用Python抓取及分析互联网数据
与其说R是一门语言,不如说R是一个平台,一个用于数据统计、绘图的平台。这个平台包罗万象,几乎所有与数据统计有关的内容都被囊括其中。在CRAN(Comprehensive R Archive Network)的Task Views中,计算物理、计
量经济学、实证金融、生态与环境数据分析、统计遗传学、医学图像分析等基于数据统计的科学研究都被纳入其中。当然,我们最感兴趣的聚类分析、判别分 析、时间序列分析、网络分析、机器学习、高性能计算等内容也自然是其中的重要组成部分。这次,我们选择这个语言及平台中非常小的一部分内容进行简要介绍。
This course is about learning the fundamental computing skills necessary for effective data analysis. You will learn to program in R and to use R for reading data, writing functions, making informative graphs, and applying modern statistical methods.
掌握Java基本语法、能够查找并运用Java API;利用Java的基本类库、图形用户界面方法、多线程、网络操作等技术编写Java基本应用程序。
《数据统计分析师SPSS认证》课程注重培养学员的实证分析能力,通过诸多案例讲解不同的应用背景。我们一方面尽可能呈现SPSS全貌,使学员对软件有总 体的认识。
第4节: 机器学习
机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行 为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各 个领域,它主要使用归纳、综合而不是演绎。
Learn about artificial neural networks and how they’re being used for machine learning, as applied to speech and object recognition, image segmentation, modeling language and human motion, etc. We’ll emphasize both the basic algorithms and the practical tricks needed to get them to work well.
Learn about the most effective machine learning techniques, and gain practice implementing them and getting them to work for yourself.
第5节: 文本挖掘
文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。文本数据挖掘是一个边缘学科,由机器学习、数理统计、自然语言处理等多种学科交叉形 成。
In this class, you will learn fundamental algorithms and mathematical models for processing natural language, and how these can be used to solve practical problems.
Have you ever wondered how to build a system that automatically translates between languages? Or a system that can understand natural language instructions from a human? This class will cover the fundamentals of mathematical and computational models of language, and the application of these models to key problems in natural language processing.
第6节: 数据可视化
数据可视化是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。 数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。
你肯定没有看过这样的数据演示。如解说体育比赛实况一般的生动与紧张,统计大师汉斯罗斯林将颠覆所谓 “发展中国家” 这一理念。
第7节: 大数据
数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更 积极目的的资讯。
Join the data revolution. Companies are searching for data scientists. This specialized field demands multiple skills not easy to obtain through conventional curricula. Introduce yourself to the basics of data science and leave armed with practical experience extracting value from big data.
大数据技术可运用到各行各业。宏观经济方面,IBM日本公司建立经济指标预测系统,从互联网新闻中搜索影响制造业的480项经济数据,计算采购经理人指数的预测值。印第安纳大学利用谷歌公司提供的心情分析工具,从近千万条网民留言中归纳出六种心情,进而对道琼斯工业指数的变化进行预测,准确率达到87%。制造业方面,华尔街对冲基金依据购物网站的顾客评论,分析企业产品销售状况;一些企业利用大数据分析实现对采购和合理库存量的管理,通过分析网上数据了解客户需求、掌握市场动向。
第8节: 工具集合
不要被这么多的学习内容吓坏了, 不需要为每一个算法或工具而重复造轮子,业界已经有很多成熟的解决方案。
本讲座将在第一部分讨论Hive, Tez/Stinger, Impala, Shark以及传统开源数据仓库brighthouse的特点和最新进展;在第二部分讨论Hawq/Greenplum, Phoenix, HadoopDB, Citusdata。
从体系结构的视角出发, 我们深入分析了流行的三大数据处理框架hadoop, Spark和GraphLab. 以这个分析为根据, 为Hadoop开发了一套C++扩展,Nativetask, 以消除计算模型和执行方式所带来的干扰.推荐这篇日记的豆列
······
&(288人关注)成为数据科学家并不难
几个菜鸟程序员在Coursera上免费注册学习了几天“机器学习”课程后,赢下了Kaggle预测模型建模大赛。
企业界在IT业制造的大数据人才恐慌(麦肯锡是始作俑者)中纷纷提高了对大数据和高级分析人才的期待和要求,数据科学家也一夜之间成为最性感的职业,其光环直追体育明星。数据科学家被描绘成神一般的人物,他们通晓数学、计算、社会学、物理学等各学科知识,同时又洞察世事,深谙企业运作之道,存世数量堪比特级珍稀保护动物。这些都让有志从事大数据分析的IT从业人员高山仰止,望而止步。
但越来越多的证据显示,即使是初级程序员也能成为优秀的数据科学家。
事实表明,只需要借助云计算服务器,在上跟斯坦福教授Andrew Ng学上几天“机器学习”课程(Machine Learning),即使是菜鸟程序员也能变成掘金大数据的金凤凰。
以上并不是痴人说梦,预测分析竞赛网站Kaggle为我们提供了不少例证。今年9月,一位律师出身的保险业风险模型设计师Carter S.首次参加Kaggle竞赛就斩斩获项目奖金。Carter采用的是独创的“暴力分析”(Overkill Analytics),所谓暴力分析就是舍弃复杂费神的大数据分析模型,采用大量简单模型的组合,利用当今硬件系统(如Hadoop集群)的强大处理能力“暴力”分析大数据集。Carter的案例说明大数据未必意味着“大模型”,这意味着大数据分析的技术门槛并没有想象得那么高。尽管如此,Carter还是在工作中自学了自然语言处理和社会化分析等知识,对线性回归分析也不陌生。
如果说Carter成为大数据科学家前已经具备了一些数据分析知识和经验,那么?完全没有数据分析经验的,只有大学课程水平的初级人士能否成为数据科学家呢?
答案是肯定的。新奥尔良大学学生Luis Tandalla去年在Coursera在线平台上听了几堂课后,在高手云集的Kagge大赛中一举中的,拿下了。Tandalla开发出的模型能够准确评估短问题测验的得分。要知道,在Coursera上报名之前此之前,Tandalla压根不了解人工智能和机器学习。
在尝到甜头后,Tandalla的学习热情被彻底点燃,他在Coursera上报名更多课程,包括自然语言处理和概率分析模型,并开始自学其他数据分析知识。Tandalla将于2013年5月毕业,但Tandalla表示将考虑继续就读并考取机器学习专业的研究生。如今,创立自己的预测分析软件公司已经成了Tandalla的方向和梦想。
Tandalla并非个案,在Heritage Foundation的竞赛中,第二名和第三名都学习了Coursera 的机器学习课程,其中来自新加坡的39岁的去年才转型成为数据科学家,目前已经是Kaggle上的顶级选手。
Courera的成功基因
Coursera课程如此富有成效的原因与斯坦福教授Andrew Ng的治学理念密不可分。Ng认为这与自己在硅谷的氛围有关,如果不是与硅谷最优秀科学家们的紧密交流,Coursera的课程不可能如此成功。此外,Ng的课程侧重实际应用,在解决实际问题的过程中学习技术,他将更多的时间花在技术的应用上,而不是算法本身。
Ng认为,孤立的学习算法并不可取,这就好比单纯学习编程语言的语法,而不是尝如何编出有用的程序。在另外一个著名的在线免费课程平台Udacity上,我们也能看到类似的教学理念。Google副总裁,斯坦福教授Sebastian Thrun在主讲计算科学101课程时,就是围绕如何开发可用的搜索引擎来讲解Python编程语言。
第一时间获取面向IT决策者的独家深度资讯,敬请关注IT经理网微信号:ctociocom
&&&除非注明,本站文章均为原创或编译,转载请务必注明出处并保留: 文章来自
相关文章:
在TMT领域具有十余年的咨询和创业经验。 目前主要关注信息安全,同时密切关注云计算、社会化媒体、移动、企业2.0等领域的技术创新和商业价值。拥有美国麻省理工学院MBA学位和清华大学经济管理学院学士学位,曾任BDA中国公司高级顾问,服务过美国高通、英特尔、中国网通、SK电讯、及沃达丰等公司。联系邮件:
《2016互联网有组织犯罪威胁评估报告》预警了八大网络犯罪趋势
报告详细分析了FitBit智能手环的硬件、网络、APP、云服务四个攻击面的安全性和隐私保护问题,风风火火搞智能硬件的务必要抽空看下。
医疗大数据应用已经来到引爆点,可为美国节省数千亿美元医疗开支。
棱镜门事件以来,NSA的全球监控行为遭到各国政府和人民的谴责,但美国情报部门所展现的大数据和信息安全技术实力也成为各国政府甚至一流IT企业为之“艳羡”的对象。
《BYOD安全策略与工具指南》为企业的信息安全主管和CIO们提供了一个详尽而系统的移动安全策略框架。
针对不同类型的设备和使用场景,教育机构如何能够确保学生安全进入Wi-Fi网络并获得最佳质量的连接呢?
瑞萨电子宣布推出高度自动驾驶(HAD)解决方案套件。这款套件可针对汽车功能安全提供高运算性能,以缩短电子控制单元(ECU)的开发时间。
经过对中国防雷业务 审核为期9个月的学习和研究,世界十大开源ERP开发商之一,法国开源软件企业Nexedi 开发了首个开源防雷业务电子政务管理平台。
Cray的这套系统将成为瑞典和斯堪地纳维亚地区首台千万亿次规模的超级计算机。瑞典研究人员和产业合作伙伴因此可以在气候模拟、流体动力学、神经科学、等离子物理、材料科学和分子模拟等领域进行复杂的模拟。
甲骨文公司将于11月9日在上海举办2016甲骨文云大会,本次大会的主题是创新驱动数字经济。届时各行业领袖、专家、客户代表、合作伙伴将共聚一堂,深入探讨
会议地点上海浦东嘉里大酒店上海市浦东新区花木路1388号
2016中国软件技术大会将以“互联网+时代企业级应用新生态”为主题,大会将邀请五十多位著名互联网公司的技术大咖、行业企业的技术专家、技术畅销书的作者、独立咨询师等就多个新兴前沿领域,从独立于厂商的角度,深入解析最新技术热点,探讨当前的技术变革对企业级软件的开发技术、架构、运维等的影响和驱动力。
会议地点北京·国家会议中心北京市朝阳区天辰东路7号
&Copyright (C) 2011,ctocio.cc - IT经理网}

我要回帖

更多关于 数据科学家 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信