如何成为如果我是一名科学家数据科学家

如何成为一名数据科学家?_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
如何成为一名数据科学家?
上传于|0|0|暂无简介
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩11页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢如何成为一名数据科学家 - 简书
如何成为一名数据科学家
本文总结了数据科学领域的资源,很大程度上参考了Quora的,根据博主的经验在内容上做了适当的调整,仅供参考1.基础知识课程方面要学的有:、数值分析、、概率论、Python微积分在机器学习和各种求概率中非常重要。线性几何、矩阵对于机器学习的大多数概念都是必不可少的。Python这种编程语言非常适合搞数据科学。其他的知识(比如随机森林,pandas,A/B测试)随着你的工作开展和学习会慢慢接触到,这些都不是基本的问题。如果你还是学生,一定要学好计算科学和统计学,选课的时候要记得选线性几何、矩阵、计算科学、概率论等相关的课程。2.Python是数据科学家最重要的语言Python有着像matlab一样强大数值计算工具包NumPy;有着绘图工具包matplotlib;有着科学计算工具包SciPy(基于Numpy和matplotlib的)。这三者为Python提供了像Matlab一样强大的矩阵控制能力,这是Python完胜Perl和Ruby的地方。当然,除了Python之外,R,Matlab/Octave,Mathematica/Sage也正在崛起。这些语言也有着一些优势。不过,就拿R来说,R的数据框架和相关的控制能力已经被Python的pandas工具包实现了。Scikit-learn也提供了像R一样强大的机器学习算法库。 Mathematica/Sage中“notebook”的概念也被IPython notebooks实现了。当然,Python也不是万能的,比如:语法比起Matlab和Octave来说还是笨重了,R的语法就好很多Python缺少像ggplot2这种静态图和D3这种可交互图,matplotlib用起来还是比较复杂处理大数据时,Numpy和pandas这些库有些捉襟见肘,Continuum正在致力于解决这个问题,目前来看还没有完成对于数据控制,缺少像LINQ那样的内置的声明式的语言。Pandas对数据控制的能力还是比较低级,而且当你深入研究Pandas的时候很可能会被它的语法整崩溃缺少面向数据科学家的专门的IDE,R的R Studio就不错对于数据科学家而言,Python可能是最重要的语言了,如前文所述,它有着非常丰富的生态系统。R语言能够在处理过的数据上运行机器学习算法,但是Python直接能够处理数据,而Pandas几乎可以像SQL那样对数据进行控制。Matplotlib能够让你对数据和结果进行可视化,以便快速理解你的数据。Scikit-learn提供了机器学习算法支持,Theano提供了深度学习框架(还可以使用GPU加速)。用过R、matlab、Octive、Python、SAS和Microsoft Analysis Services的人都推荐用Python。3.加入社区Meetup:到上找一些你感兴趣的talk,在线的学习数据科学,认识一些数据科学家或者将来的数据科学家。博客:这里有个,可以选一些follow。Quora、twitter:数据科学第一手的信息资源的来源一般是twitter、Quora上的用户,例如Jeff Hammerbacher @hackingdataPeter Skomoroch @peteskomorochRyan Rosario @datajunkieMichael E Driscoll @medriscollJoseph Turian @turianNathan Yau @flowingdataPeter Skomoroch @peteskomorochRussell Jurney @rjurneyBradford Cross @bradfordcrossJ.D. Long @cmastication,Jimmy Lin @lintoolKevin Weil @kevinweilMat Kelcey @mat_kelceyEdwin Chen @edchedchData Drinking Group @chrisalbon/data-drinking-groupBig Data @dataspora/bigdataData Science @pinoystartup/sim-data-teamStrata Program Committee @strataconf/strata-committee到Quora和Twitter上去follow这些人吧,别忘了follow自己这个领域最牛的那几个人,比如博主follow了Socher。另外,分析了twitter上哪些人在数据科学领域最具影响力。Quora上有很多资源,跟stackoverflow不同的是,Quora比较像知乎,会有人给你一些像survey类型的经验,一般问题都比较抽象,回答比较系统;stackoverflow更擅长具体的问题,尤其是编程方面的细节问题。新浪微博:由于博主只是一个普通的微博用户,且个人较偏向于文本方向,对大咖们的了解还不够深入,难免有缺漏,如果有缺漏了请多包涵且告知。以下是我个人关注的微博大咖们:王威廉王伟DL刘知远THU张栋_机器学习李航博士丕子winsty黄亮-算法时代梁斌pennylicstar老师木数盟社区52nlp好东西传送门西瓜大丸子汤数据挖掘研究院爱可可-爱生活龙星镖局另外,好东西传送门的日报每天都会收录微博精华,懒得刷微博的同学可以看这里个人加的几个QQ群:自然语言处理 龙星课程-机器学习 神经网络 / 深度学习 Deep Learning高质量 生物医学文本挖掘BIONLP 数盟【数据分析1群】 4.配置你的环境和(比notepad++和ue更适合写代码,个人用的eclipse+PyDev)5.学习相关工具的使用Python: 可以结合、()、来学习。书可以从找几本。当然,找到最适合自己的方式是最好的,以上只是提供一些选择而已,博主当时是学的外加R: 推荐,一个数据科学和R配套学习的教程Sublime Text:还不错,从配置到快捷键,里边的视频在youtube上SQL: 个人感觉这个不太重要,而且SQL相对来说较简单,对找工作也许有点用处结合概率统计来学习: 以上这些语言比起C、Java来说语法很简单,有基础的同学很轻松就能掌握,对于这类同学来说,可以结合概率统计顺便把编程语言给学了。例如:针对Python的()、针对R的()、应该掌握的统计学知识点可以参考。6.哈佛的data science公开课不必多说,看了再说,,,,7.到Kaggle上找一些基础的竞赛练手刚开始的时候最好不要直接参加由奖金的竞赛,因为这些竞赛的数据往往很大、复杂、晦涩,不适合学习。可以先学(wan)学(wan)Scikit-learn,拿这个简单的二元分类任务练手:。接下来可以进军第二个任务:,这个任务比第一个要稍微复杂那么一点(有枚举类型的变量categorical variables,丢失的变量这些情况了)。第三个任务,可以尝试。第四个任务,可以尝试,这里边有一些时间戳数据。第五个任务,尝试一些自然语言处理的任务,如。做完这些之后,再找些自己感兴趣的竞赛做做。8.数据科学相关的知识产品指标会教你公司里边关心什么、看重什么、他们是怎么衡量产品的:优化方法能帮你理解统计学和机器学习:A/B测试其实在医学上已经应用多年了,只是换了个名字而已:用户行为Feature Engineering,大数据技术针对大数据技术的工具、框架Machine LearningNatural Language Processing自然语言处理需要把文本数据数学化,并且要尽量不丢失文本的“含义”。文本挖掘会让你接触全新的、令人兴奋的数据(做了都说好,谁做谁知道)时间序列分析数据文明9.参与/solo个顶层产品用已掌握的数据科学和软件工程技能做出个让别人看了会点赞的成品出来,可以是网站、处理数据的新方法、炫酷的可视化等等。要做这么个成品,可以先看看以下内容:10.公开和社交在github上创建公开的仓库,写博客,把你的研究工作、参与的项目、Kaggle竞赛的解决方案、见解和想法都贴出来,这会让你提升影响力,为你的简历准备素材,跟通灵玉的其他人建立联系。11.获得数据科学的实习或工作BAT都有相关领域的实习岗位,另外有些国外的提供实习机会的公司搞不清自己该申请数据科学还是软件开发的实习?参考现在很多公司在初秋一直到冬天都会招聘数据科学岗位实习,仅仅是实习的话,记得不要花过多的时间去准备,直接去应聘就行。12.在线书籍13.像数据科学家一样思考以上已经详细的介绍了数据科学家所需要的具体技巧。想要像数据科学家一样思考,建立正确的态度,只有这些技术是远远不够的。以下列出了成为合格数据科学家的7项挑战:(1) 保持对数据的好奇作为一名数据科学家,你要自己找问题并且自己做出回答。数据科学家要自然而然的对他们看到的数据产生好奇,并找到解决问题的创新性方法。很多时候数据科学并不只是分析,而是找出一个有趣的问题并且找到解决方案。这里有两个典型的案例:总结: 对你感兴趣的问题或者主题进行思考,然后用数据的方式作出回答。(2) 用怀疑的眼光阅读新闻数据科学家的很多贡献往往是,他们从一堆信息里找出了哪些是重要的、哪些是假的(这是机器很难取代数据科学家的原因),这种习惯性的怀疑的眼光在任何科学领域都是有益的,尤其是在发展速度快的领域,因为这些领域更容易被假象误导。在看新闻的时候练习批判性的眼光吧,很多文章本质上都是有瑕疵的。这里有两个例子,评论里有答案:Easier:Harder:总结:每当你看到新的文章时,记得持怀疑的态度,对文章进行评论,并指出它的问题在哪。(3) 把数据看成是改善消费者产品的工具试着了解一款互联网产品,检查它的主要渠道。有没有结账渠道?注册渠道?订单渠道?反复的检查这些渠道,然后提出一些假设方案来提升核心指标(比如转化率、用户分享数、注册用户数量等)。设计实验来验证你的假设是否真的会改变这些指标。总结:通过反馈邮件跟这个网站分享你的idea(4) 像贝叶斯一样思考像贝叶斯一样思考,用先验来作判断。这意味着,要想树立起数据科学家的思维方式,就必须一方面能够周详考虑新观测到的信息,另一方面又需要以往的直觉和经验(贝叶斯里的先验)。比如,检查下数据,发现今天的用户参与量明显下降了,下面哪种原因是最有可能的呢?用户参与量就是会突然的减少网站的某些功能down掉了登陆模块down掉了尽管1也能够作为一种解释,但是2和3看上去比1更靠谱,因为根据先验概率来看,2和3的概率要比1更大。再比如,你是Tesla公司的高级工程师,而在上个月中,5辆Tesla S着火了。有可能是什么原因呢?生产质量下降了,现在Tesla的安全性应当被重新测试安全性不是问题,因为与其他同行汽油车相比,Tesla S着火的概率已经算很低的了即使没什么经验的人也可能会得出1这样的结论,如果你经常做质量测试,那你的先验对2是否正确就会更有把握。不过,你应该继续寻找分别支持两个结论的信息,并继续寻找提升质量的办法,那么问题来了:什么样的信息应该值得留意呢?总结:回想一下你上一次没有用先验来指导思考就得出结论是什么时候,从现在开始避免再犯类似的错误。(5) 了解每种工具的能力“Knowledge is knowing that a tomato is a fruit, wisdom is not putting it in a fruit salad.” - Miles Kington知识会指导你实现经典的线性回归,而经验会告诉你这在实际当中几乎不会用到。知识会让你了解k-means聚类的5种变种,而经验会告诉你实际当中几乎不会单独在数据上聚类,以及k-means在特征过多的时候表现是多么的不如人意。知识会告诉你一堆复杂的技术,而经验会告诉你怎么在有限的时间里从这里边为你的公司选择一个最能产生效益的。当你到Coursera或EdX上学一门课的时候,你可能会随着课程开发出一堆工具,除非你能搞清楚在什么场合下用哪个合适,否则这一堆工具毫无实际作用。总结:在真实数据上尝试各种工具,发现他们各自的优点和不足。哪种工具在这种场合下最好,为什么?(6) 给别人讲一个复杂的概念Richard Feynman是怎么判断哪个概念他能懂,哪个不懂呢?Feynman称得上是一位伟大的老师,他能够向一些什么都不懂的学生讲明白一些较深的知识,这一点他为自己感到自豪。有人告诉他说:“Dick,跟我解释一下,为什么自选1/2粒子服从费米 - 狄拉克统计”,他考虑了一下听众的知识水平,然后说,“我会针对这个专门为新生讲一次课的。”过了几天他说:“我做不到。这个知识没有办法简化到新生能听懂的地步。这意味着我们并没有真的搞懂了这个知识点”Richard Feynman与众不同的地方就在于他能够提炼复杂的概念,把他们转换成可以理解的想法。类似的,一流的数据科学家与众不同的地方就是他们能够诚恳的分享他们的想法并且对这些想法作出解释和分析。总结:把你懂的一种技术概念介绍给你的朋友吧,也可以是在知乎、Quora或者优酷、youtube上。(7) 说服其他人什么才是重要的对一个数据科学家来说,比解释他们的分析更重要的,可能是与大家交流某个见解的价值和潜在的影响。数据科学的某个具体的任务将会商品化编程数据科学工具,然后不断的完善。新工具会让一些任务更新迭代,比如手写版应用、(数据清洗)、甚至是某些预测建模。然而,数据科学家发现并和别人分享什么才是重要的,这种能力永远不会过时。数据量在逐渐增加,对数据的一些潜在的见解也在增加,公司总会需要数据科学家来找出该怎么做才能对任务进行优化。数据科学家在企业中扮演的角色,是数据和公司之间的使者。数据科学家成功与否,关键在于他/她是怎么讲故事的、以及对公司带来了什么样的影响,其他的技能都是对这种能力的一种放大。总结:从统计学的角度来讲故事吧,跟别人交流你在数据上的重要发现,针对观众关心的事做些具有说服力的presentation。14.关于找工作15.不同人群如何成为数据科学家定制版更多的下载作业帮安装包
扫二维码下载作业帮
1.75亿学生的选择
如何成为一名数据科学家
清1风283rLs
如果展开讲,这个问题可以写一篇综述了.最近刚好有空,打算认真写写.仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了.一、数据科学家的起源"数据科学"(DataScience)起初叫"datalogy ".最初在1966年由Peter Naur提出,用来代替"计算机科学"(丹麦人,2005年图灵奖得主,丹麦的计算机学会的正式名称就叫Danish Society of Datalogy,他是这个学会的第一任主席.Algol 60是许多后来的程序设计语言,包括今天那些必不可少的软件工程工具的原型.图灵奖被认为是“计算科学界的诺贝尔奖”.)1996年,International Federation of Classification Societies (IFCS)国际会议召开.数据科学一词首次出现在会议(Data Science,classification,and related methods)标题里.1998年,C.F.Jeff Wu做出题为“统计学=数据科学吗?的演讲,建议统计改名数据的科学统计数据的科学家.(吴教授于1987年获得COPSS奖,2000年在台湾被选为中研院院士,2004年作为第一位统计学者当选美国国家工程院院士,也是第一位华人统计学者获此殊荣.)2002年,国际科学理事会:数据委员会科学和技术(CODATA)开始出版数据科学杂志.2003年,美国哥伦比亚大学开始发布数据科学杂志,主要内容涵盖统计方法和定量研究中的应用.2005年,美国国家科学委员会发表了"Long-lived Digital Data Collections:Enabling Research and Education in the 21st Century",其中给出数据科学家的定义:"the information and computer scientists,database and software and programmers,disciplinary experts,curators and expert annotators,librarians,archivists,and others,who are crucial to the successful management of a digital data collection"信息科学与计算机科学家,数据库和软件工程师,领域专家,策展人和标注专家,图书管理员,档案员等数字数据管理收集者都以可成为数据科学家.它们主要任务是:"进行富有创造性的查询和分析."2012年,O'Reilly媒体的创始人 Tim O'Reilly 列出了世界上排名前7位的数据科学家.Larry Page,谷歌CEO.Jeff Hammerbacher,Cloudera的首席科学家和DJ Patil,Greylock风险投资公司企业家.Sebastian Thrun,斯坦福大学教授和Peter Norvig,谷歌数据科学家.Elizabeth Warren,Massachusetts州美国参议院候选人.Todd Park,人类健康服务部门首席技术官.Sandy Pentland,麻省理工学院教授.Hod Lipson and Michael Schmidt,康奈尔大学计算机科学家.
为您推荐:
其他类似问题
扫描下载二维码数据科学家可能成为2015年最热门职业
[摘要]招聘网站报告称,数据科学家的平均年薪为11.9万美元,而程序员的平均年薪为6.5万美元,差距由此可见。
腾讯科技讯 1月3日,你擅长数学,会用Python编程,而且还对某个行业了如指掌?如果你拥有这样的技能集,那你就有可能当上数据科学家。而如果你当上了数据科学家,那你的日子就可以过得风风光光了——LinkedIn的最新投票结果显示,“统计分析和数据挖掘” 是2014年最大的求职法宝。美国招聘网站Glassdoor的报告称,数据科学家的平均年薪为118709美元(约合人民币737550元),而程序员的平均年薪为64537美元(约合人民币400974元)。麦肯锡公司的一份研究预测称,到2018年,在“具有深入分析能力的人才”方面,美国可能面临着14万到19万的缺口,而“可以利用大数据分析来做出有效决策的经理和分析师” 缺口则会达到150万。该领域目前异常火爆,纽约大学数据中心课程的负责人罗伊-洛伦斯(Roy Lowrance)表示,现在可能已经到了巅峰期。“也许存在着泡沫,” 他说。 “无论什么事情,一旦变得这样火爆,之后就肯定就会冷下来。”不过,纽约大学希望在未来几年里扩大数据科学课程的招生规模,把学生人数从40名增加到60名。本学年还有五个月才会结束,但50%到75%的学生已经找到了比较理想的工作。为什么该领域会变得如此火爆?琳达-博奇(Linda Burtch)是芝加哥的猎头公司博奇工程的董事总经理,她表示,尽管像()、、Netflix和Uber这样的高科技公司都有自己的数据科学团队,但那些非高科技公司,比如Neiman Marcus、沃尔玛、Clorox和Gap,它们现在也需要使用这方面的人才,“很多公司都在物色数据科学家,”她说。这些公司希望,数据科学专业人才可以挖掘新的信息,来帮助公司开源节流。负责大数据业务的副总裁Anjul Bhambhri表示,航空制造商Pratt & Whitney现在可以预测出飞机发动机何时需要进行维护,准确率达到97%,这可以帮助它更加有效地开展业务。虽然IBM在本月刚刚推出了基于云计算的Watson Analytics免费增值工具,但是,为了分析非结构化数据,数据科学家常常不得不亲自动手编写专门的软件程序,这正是数据科学家必须掌握编程技巧的一个原因。学校教育洛伦斯说,数据科学家需要具备三项基本技能:数学/统计、计算机能力、在特定业务领域的知识。纽约大学数据科学中心希望招收至少具备其中一种技能的学生,然后培养他们掌握其他技能,让学生到毕业的时候,可以独当一面负责处理数据工作。 “在学习过程中,他们要做一些数据科学项目,这些项目需要他们用到这三种技能,”他说。但是,如果你想成为一名数据科学,也不一定非得去大学读书才行。从今年9月开始,一家名为梅蒂斯(Metis)的公司开始在纽约举办为期十二周的数据科学训练营,费用为1.4万美元。报名的人非常之多,入学竞争相当激烈。梅蒂斯公司的联合创始人杰森-莫斯(Jason Moss)说,大约有一半的学生都拥有硕士或博士学位。第一期训练营在12月初结束。莫斯说,不过几周, 15名学生中就有6名拿到了聘用通知。“我不认为训练营可以替代大学教育,”莫斯说。“训练营可以提供一条捷径,让你以最快的速度找到一份工作,但大学的目的不在于此。但我也不认为你必须上大学才能成为一名数据科学家,”他说。“有一种人,他们天生具有好奇心,有勇气,有决心,总想把事情理出头绪,他们在这一行可以干得很好。”Anmol Rajpurohit是一名独立的数据科学家兼顾问,他说,做这一行工作最重要的素质就是能够快速学习东西。“与专长于任何特定编程语言相比,泛型编程技巧远远更加重要,”他说。 “在如今这个时代,技术的发展突飞猛进,语言会很快过时,新的语言则将迅速普及。因此,学东西很快的人,会比单独领域的专家更有前途。”洛伦斯说,他认为,在某些技能方面,训练营和网上课程可以为学习者提供很大的帮助。但在另外一些方面,它们的作用就就相对有限了。纽约大学的数据科学课程有一个优势,就是可以按照正确的先后顺序来培养你的技能。“我们的教学顺序可以让你循序渐进、融会贯通地掌握技能。”他说。数据科学家要做哪些事?游戏公司Playstudios的数据科学家乔恩-格林伯格(Jon Greenberg)说:“在日常工作中,我需要管理一系列控制面板,它们提供的信息可以让公司知道,我们的生意到底做得怎么样? 用户在做什么事情?”格林伯格现在是一名经理了,所以他编程的时候没有以往那么多,但是他有时候仍然需要编程。通常来说,他把数据从Apache Hadoop的存储器里调取出来,在分析平台Revolution R上运行它,并对它进行一些可视化处理。 “比如说,我们可以从中得知一部分用户如何与新推出的功能互动,”他解释说。六年前,格林伯格拿到了统计学的硕士学位。他希望进入政府部门工作,但却惊讶地发现,公司企业非常需要数据科学家。 “那个时候,数据科学领域还没有现在这么火爆,,”他说。现在,他每天都能从猎头那里收到一个电话或一封邮件。 “这种情况不只是发生在我身上,”他说。“所有的数据科学家可能都是这样。”对于格林伯格来说,就业机会很好只是一个加分项,因为他本来就热爱这一行。 “我认为,要做数据科学工作,你必须得有分析头脑才行,而且还得有好奇心,”他说。“你必须得有灵活性和创造性,构思出不同的方法来解决问题。”这项工作的唯一缺点,格林伯格说,就是“清洁”数据(去掉那些没有相关性的结果)需要花费大量时间。“这部分任务并不是那么招人喜欢,你得花很多时间来做它。”他说。Rajpurohit说,他花了很多精力来清洁数据和做研究。 “我很大一部分时间都花在做研究上,因为我经常会遇到全新的问题,因此,我需要研究特定领域最新文献,或者是找找专家,听听他们在这方面的看法,”他说。“尽管数据科学这个名字和艺术毫不沾边,但是你需要把艺术和科学很好地结合起来。科学的部分很明显——数学,程序设计等等。但艺术部分是同样重要——创造力,对语境有着深刻的理解。把这两部分结合在一起,你就会变得善于解决问题。”尽管如此,Rajpurohit也承认,数据科学并不像眼下很多人以为的那样善良迷人。这个领域确实是在变得越来越重要,而且也出现了很多高薪机会,但在数据科学家需要做的日常工作中,有很多其实都很枯燥。你是当数据科学家的料吗?每天花大量时间来编程,分析控制面板上的数据,获得相关信息,如果你对这样的工作感兴趣,那么你可能就适合干这一行。但如果你仅仅是想拿高工资,那么你可能就会觉得这样的日子过起来苦不堪言。你要知道:真正适合干这一行的人,常常会在业余时间里编写程序,分析数据,而他们这样做只是为了自娱自乐。亚当-弗洛葛尔(Adam Flugel)是博奇公司的数据科学招聘猎头,他谈到了最近遇到的一名候选人。此人拥有博士学位,今年秋天将去电艺公司(Electronic Arts)工作。“真正让他脱颖而出的是优势是,他在空闲时间也做这种事情,而且纯粹就是为了好玩,”弗洛葛尔说。“他是多人在线游戏世界《坦克世界大战》的玩家,领导着一个玩家团队。于是他编写了一个从游戏服务器抓取数据的程序,然后进行数据分析,评估自己团队的表现。然后他利用这些信息来弄清应该如何调整自己的战略,应该招收哪些类型的成员,才能提升团队的整体表现。”所以,如果你爱的并不是数据本身,而是它可以给你带来的高薪,那么你会发现,自己很难与那样的人竞争。但是博奇说,每个人都应该学会热爱数据,即便只是为了自己事业前途着想,也该这样做。 “十年之内,如果你不是数据大咖,你就别想升到‘首席XX官’的位置上”博奇说。但是像史蒂夫-乔布斯、比尔-盖茨那样的情况又怎么解释呢?他们拥有远见卓识,并没有陷入数据科学的细枝末节之中。“那是30年前的事了,”博奇说。 “我说的是未来10年。”(Kathy)
[责任编辑:honestsun]
您认为这篇文章与"新一网(08008.HK)"相关度高吗?
Copyright & 1998 - 2017 Tencent. All Rights Reserved
还能输入140字}

我要回帖

更多关于 假如我是一名科学家 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信