如何搭建优秀的大数据团队介绍

点击联系发帖人 时间：2018-01-13 10:12

优秀大客户团队推荐

【图文】从零开始搭建大数据平台_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
从零开始搭建大数据平台
&&从零开始搭建大数据平台
大小：2.27MB
登录百度文库，专享文档复制特权，财富值每天免费拿！
你可能喜欢如何搭建基于Hadoop的大数据平台
查看: 817|
评论: 0|来自: 京东大数据专家
摘要: 随着大数据的风生水起，以Hadoop家族为代表的软件逐步占据了大数据处理的广阔地盘，Hadoop也从小众领域变成了大数据开发的标准。在Hadoop原有技术基础之上，Hadoop家族产品日益庞大，你了解哪些hadoop家族产品？快来 ...
随着的风生水起，以Hadoop家族为代表的软件逐步占据了大数据处理的广阔地盘，Hadoop也从小众领域变成了大数据开发的标准。在Hadoop原有技术基础之上，Hadoop家族产品日益庞大，你了解哪些hadoop家族产品？快来看看它们的主要成员吧。一、基于Hadoop 的生态圈HDFS用于解决海量数据存储问题。MapReduce为海量数据提供计算框架。Common提供基础支撑功能，是Hadoop体系底层模块，为Hadoop各子项目提供各种工具，如：配置文件和日志操作等。Hivehive有一套映射工具，可以把SQL查询转换成MapReduce中的job来运行，使你从繁琐的 MapReduce程序中解脱出来，用更简单更直观的语言去写程序。但它的缺点是速度较慢。HBase既然Hive的速度较慢，那么有没有较快的数据库呢？那就是HBase，HBase查询的速度很快。Sqoop如果数据存在MySQL，Oracle等数据库，怎么导入到HDFS中？Sqoop提供了关系型数据库与HDFS间的相互转换。Flume服务器这么多，如果其中一台有点问题，或者哪个服务出现问题，如何知道哪里出问题了？Flume提供了一个高可靠的日志采集系统。MahoutMahout是一个分布式机器学习算法的集合，Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘，能帮助开发人员更快捷地创建智能应用程序。PigPig是在MapReduce上构建的一种高级查询语言，把一些运算编译进MapReduce模型的Map和Reduce中，并且用户可以定义自己的功能。Zookeeper解决分布式环境下的数据管理问题：统一命名、状态同步、集群管理、配置维护等。Ambari安装、管理和监控Hadoop集群的Web界面工具。Chukwa分布式数据收集和分析工具集，用于显示、监控、分析大型分布式系统的运行数据。HCatalog提供共享数据模板和数据类型的机制，并对数据表进行抽象便于进行数据整合。以上是对Hadoop家族的主要成员的介绍，了解这些成员的作用后，对Hadoop整体能干什么就有了初步的认识,那接下来就尝试着搭建基于hadoop的大数据架构吧。二、基于hadoop的大数据框架数据集成层集成各类数据源，包括私有应用数据、数据库数据、系统产生的日志数据等，这些数据具有来源广、数据量大、类型多等特点；数据存储与计算层提供分布式、可扩展的海量数据存储、管理与处理能力；层为分析人员提供高级分析与挖掘工具，提升效率；平台管理层确保整个数据平台平稳、安全运行，包括配置管理、运行监控、日志管理、故障管理、性能优化、安全管理等功能。（原文转自：京东大数据专家，欢迎大家关注）
上一篇：下一篇：
站长推荐 /2
大数据QQ群汇总
官方群一：（满）
招募各板块版主，欢迎
Powered by如何打造优秀的大数据团队_联商网
如何打造优秀的大数据团队
　　对于企业来说，要建设自己的大数据平台，需要的不只是技术解决方案，更重要的是组建一支优秀的数据团队。那么，数据团队有哪些成员组成？他们的工作方式是什么？采用怎样的组织架构来开展工作？
　　1. 数据团队成员
　　这里只讨论数据团队中核心成员的角色和他们的工作职责。
　　1）基础平台团队
　　主要负责搭建稳定、可靠的大数据存储和计算平台。
　　核心成员包括：
　　数据开发工程师
　　负责Hadoop、Spark、Hbase和Storm等系统的搭建、调优、维护和升级等工作，保证平台的稳定。
　　数据平台架构师
　　负责大数据底层平台整体架构设计、技术路线规划等工作，确保系统能支持业务不断发展过程中对数据存储和计算的高要求。
　　运维工程师
　　负责大数据平台的日常运维工作
　　2）数据平台团队
　　主要负责数据的清洗、加工、分类和管理等工作，构建企业的数据中心，为上层数据应用提供可靠的数据。
　　数据开发工程师
　　负责数据清洗、加工、分类等开发工作，并能响应数据分析师对数据提取的需求。
　　数据挖掘工程师
　　负责从数据中挖掘出有价值的数据，把这些数据录入到数据中心，为各类应用提供高质量、有深度的数据。
　　数据仓库架构师
　　负责数据仓库整体架构设计和数据业务规划工作。
　　3）数据分析团队
　　主要负责为改善产品体验设计和商业决策提供数据支持。
　　业务分析师
　　主要负责深入业务线，制定业务指标，反馈业务问题，为业务发展提供决策支持。
　　建模分析师
　　主要负责数据建模，基于业务规律和数据探索构建数据模型，提升数据利用效率和价值。
　　2. 数据团队的工作方式
　　数据团队的工作可以分成两大部分，一部分是建设数据存储和计算平台，另一部分是基于数据平台提供数据产品和数据服务。
　　平台的建设者包括三种人群：基础平台团队对hadoop、spark、storm等各类大数据技术都非常熟悉，负责搭建稳定、可靠的大数据存储和计算平台。数据平台团队主要负责各类业务数据进行清洗、加工、分类以及挖掘分析，然后把数据有组织地存储到数据平台当中，形成公司的数据中心，需要团队具有强大的数据建模和数据管理能力。数据产品经理团队主要是分析挖掘用户需求，构建数据产品为开发者、分析师和业务人员提供数据可视化展示。
　　平台的使用者也可以包括三种人群：数据分析团队通过分析挖掘数据，为改善产品体验设计和商业决策提供数据支持。运营、市场和管理层可以通过数据分析师获得有建设性的分析报告或结论，也可以直接访问数据产品获得他们感兴趣的数据，方便利用数据做决策。数据应用团队利用数据平台团队提供的数据开展推荐、个性化广告等工作。
　　3. 数据分析团队的组织架构
　　在整个大数据平台体系中的团队：基础平台、数据平台、数据应用和数据产品经理团队都可以保持独立的运作，只有数据分析团队的组织架构争议比较大。数据分析团队一方面要对业务比较敏感，另一方面又需要与数据平台技术团队有深度融合，以便能获得他们感兴趣的数据以及在数据平台上尝试实验复杂建模的可能。
　　从他们的工作方式可以看出，数据分析团队是衔接技术和业务的中间团队，这样的团队组织架构比较灵活多变：
　　1）外包
　　公司自身不设立数据分析部门，将数据分析业务外包给第三方公司，当前电信行业，金融行业中很多数据分析类业务都是交给外包公司完成的。
　　优势：很多情况下，可以降低公司的资金成本和时间成本；许多公司内部缺乏相关的知识与管理经验，外包给专业的团队有助于公司数据价值的体现。
　　劣势：一方面外包人员的流动和合作变数，对数据的保密性没有保证；另外一方面，外包团队对需求的响应会比较慢，处理的问题相对通用传统，对公司业务认知不如内部员工深入，创新较低。
　　2）分散式
　　每个产品部门独立成立数据分析团队，负责响应自己产品的数据需求，为业务发展提供决策支持。
　　优势：数据分析团队与开发团队、设计团队以及策划团队具有共同的目标，团队整体归属感强，绩效考核与产品发展直接挂钩，有利于业务的发展。
　　劣势：在业务规模比较小的情况下，数据分析师比较少，交流的空间也比较小。因为身边的同事都不是该领域的人才，无法进行学习交流，所以成长空间会比较小，分析师的流失也会比较严重，最终陷入招募新人&&成长受限&&离职&&招募新人的恶性循环。另一方面，每个产品团队都零星地招募几个分析师，整体来看给员工的感觉是公司并不是特别重视数据化运营的文化，对数据的认同感会被削弱，不利于公司建立数据分析平台体系。
　　3）集中式
　　数据分析团队与产品团队、运营团队各自独立，团队的负责人具有直接向分管数据的副总裁或CEO直接汇报的权限，团队负责响应各业务部门的数据需求。
　　优势：分析团队具有充分的自主权，可以专心建设好公司级别的数据平台体系，研究数据最具有价值的那些问题，有权平衡业务短期需求和平台长期需求直接的关系。另一方面，这种自上而下建立起来组织架构，可以向全体员工传达数据在公司的重要位置，有利于建立数据化运营的文化。
　　劣势：产品业务团队会觉得他们对数据的掌控权比较弱，一些业务数据需求得不到快速响应，认为分析团队的反应太慢无法满足业务发展的需要。随着业务发展越来越大，产品团队会自己招募分析师来响应数据需求，逐渐替代分析团队的工作，这样势必会导致分析团队的工作被边缘化。
　　4）嵌入式
　　数据分析团队同样独立于产品团队存在，但只保留部分资深数据专家，负责招聘、培训数据分析师，然后把这些人派遣到各产品团队内部，来响应各类业务数据需求。
　　优势：团队的灵活性比较好，可以根据公司各业务线的发展情况合理调配人力资源，重点发展的项目投入优秀的人才，一些需要关闭的项目人才可以转移到其他项目中去。
　　劣势：分析师被嵌入到产品团队内部，受产品团队主管的领导，从而失去了自主权，导致沦落为二等公民。人事关系在公司数据分析团队中，却要被业务团队主管考核，但业务团队主管并不关心他们的职业发展，导致分析师的职业发展受到限制。
　　那么，到底采取哪一种组织架构比较合适呢？
　　可以根据公司数据化运营进展的深度灵活采取一种或几种方式。除了外包模式，其他组织架构我都经历过，简单来说，早期采用分散式、中期采用集中式、后期采用分散式或嵌入式以及两则并存。
　　早期：公司对数据体系的投入一般是比较谨慎的，因为要全面建设数据体系需要投入大量的人力和财力，公司不太可能还没有看清楚局势的情况下投入那么多资源。所以，往往都是让每个产品团队自己配置分析师，能解决日常的业务问题就行。杭研院早期的网易云阅读、印像派等项目中就是采用的这种分散的模式。
　　中期：随着业务的发展、公司对数据的认识有所提高并且重视程度不断加大，就开始愿意投入资源来构建公司级别的数据体系。这个阶段采用集中式有利于快速构建数据分析平台，为公司各个产品团队提供最基础的数据分析体系，能在未来应对业务的快速发展。杭研院花了两年时间完成了这个阶段的主要工作，并在网易云音乐和易信产品发展阶段起到了至关重要的作用。
　　后期：一旦公司级别的数据分析平台构建完成，消除了早期分散模式中分析师缺少底层平台支持的窘境，他们能够在分析平台上自助完成大量的数据分析工作。而且经历过集中式阶段的洗礼，公司上上下下对数据的认识都有了很大的提高。此时，在回到分散模式时，原先的很多弊端已基本消除，此外，采用嵌入模式也是可以的。目前杭研院在网易云音乐、网易云课堂、考拉海购等几个产品中就是分散式和嵌入式并存的架构。
　　总之，没有最好的组织架构，只有适合自己的组织架构。
　　【作者介绍　沈琦：网易杭州研究院商业智能部门总监、大数据技术专家　自2007年毕业以来，一直在网易杭研院从事大数据技术的相关工作，现担任商业智能部门总监，负责管理杭研院和考拉两个商业智能团队，在大数据技术和部门管理方面都具有丰富的经验。商业智能部门负责网易数个亿级用户产品的数据分析工作，覆盖考拉海淘、云音乐、云课堂、云阅读和易信等众多网易明星级产品。】
欢迎关注联商网，扫一扫关注【联商网微信订阅号】我们只为您推送最真实，最有价值的行业资讯
不吐不快？把你的想法发上来
全部评论()
暂时还没有评论哦！赶快跟帖哦
新闻关注榜
Qrcode += "";
Qrcode += "";
Qrcode += "";
Qrcode += "";
Qrcode += "";
Qrcode += "";
Qrcode += "";
Qrcode += "";
if ($("#top_wx_show_box").length == 0) {
$("#articleCmtAndFav").append(Qrcode);
$("#top_articleQrcodeImg").html($("#_articleQrcodeImg").html());
$("img[name=\"top_wx_clo\"]").click(function () {
$("#top_wx_show_box").fadeOut(100);
$("#top_wx_show_box").fadeIn(100);
$("#top_wx_show_box").fadeIn(100);
function articleQrcode() {
var url = arguments[0];
var Qrcode = "";
Qrcode += "";
Qrcode += "";
Qrcode += "";
Qrcode += "";
Qrcode += "";
Qrcode += "";
Qrcode += "";
Qrcode += "";
Qrcode += "";
if ($("#wx_show_box").length == 0) {
$("#headerCommentNum").append(Qrcode);
$("#articleQrcodeImg").html($("#_articleQrcodeImg").html());
$("img[name=\"wx_clo\"]").click(function () {
$("#wx_show_box").fadeOut(100);
$("#wx_show_box").fadeIn(100);
$("#wx_show_box").fadeIn(100);
var theArticleId = $("#ArticleId").val();
if ($("#headerCommentNum").length > 0) {
showshare("headerCommentNum", {
url: "http://m.linkshop.com/news/show.aspx?id=" + theArticleId,
eventName: "articleQrcode"
var ytvalue="";
if(document.getElementById("yetai")!=null)
ytvalue = document.getElementById("yetai"). }
if(ytvalue=="3" || ytvalue=="8")
{ BAIDU_CLB_fillSlot("568527"); }
联商网版权所有 &6个问题详细告诉你，如何将大数据与HR工作更好地结合
背景：如果评选2015年最忙的词汇，“大数据”应该榜上有名。各个行业都在为大数据时代的到来欢欣鼓舞。在人才管理的各类行业论坛、专业研讨会、案例分享活动中，不管是否与自己的业务有关联，标题和内容也是言必称大数据。似乎不抓住这些机会明确表态，就会被时代淘汰一样。之前森豆与许多HR
从业者交流过他们对大数据的看法——绝大部分人说不出来“大数据”到底指什么内容，只是模糊的觉得这是趋势，会改变他们未来的工作方式。
鉴于此，我们专门在人才盘点微信群里面收集了HR同仁们对大数据在人才盘点过程当中的一些问题，请北森测评云高级产品总监&北森人才管理研究院的王丹君女士进行了语音在线答疑，森豆特别整理了一部分出来先share给大家，后续还会继续发文章，希望各位enjoy~
小贴士：干货满满，可能需要大家20分钟的阅读时间，准备好了吗？
大数据与人才盘点之间有什么关系呢？
王丹君：
坦率来讲，大数据其实跟现在企业里面做的人才盘点本身并没有特别直接的关系。当然我们做的所有事情的基础都是基于数据。
我认为两者之所以能够关联在一起，也体现了HR同仁们在现在工作中，可能对数据的一种渴望，或者希望有更多的信息能够去支持我们的决策。
我想先简单的跟大家分享一下关于大数据的东西。可能有一些朋友对北森有点熟悉，之前也参加过北森的活动，我们其实会经常在一些活动上跟大家分享大数据这个概念，只是在管理领域或者人力资源这个领域里面，它可能用到的一些场景。我们自己也有专门的技术和产品团队去做这个方面的一些尝试和努力。
其实在同行之间也做很多的交流，我们发现，在HR的领域，可能是跟我们具体在工作中会产生的那些数据的量有关系，包括获得的那些可以分析的东西有关系。其实包括很多的供应商，大家在讲的大数据并不是真正的大数据的概念，大家经常会讲大数据，那大数据和数据的差别就差那一个大字。那bigdata是不是当你的数据量上去了，它就算是大数据？为什么大数据火了，之前在各行各业不只是在HR的领域，比如说供应链管理，生产管理里面，大家一直在做很多对于数据的管理，很多工厂都有自己的专门统计员去做这些。那为什么这些年大数据的概念火了，主要跟互联网的发展有非常大的关系。
我相信今天在群里的这些群友可能除了用微信，应该也用微博、知乎、豆瓣等社交网络，互联网的发展提供了越来越多这种交流，然后连接人和人，人和知识，人和信息这样的一些平台。当这些平台比较多了以后，就会产生非常多的信息，比如微博有一个统计，在女排夺冠的那场比赛里边，可能瞬间关注的人数就达到上千万。这些人都在微博上活跃，都会产生非常多的数据，这时，我们就会很关心说，所有的用户在这些平台上的一些动作也好，发言也好，是不是代表一些什么样的趋势，中间我们是不是能分析出一些规律。
因此，平台上产生的数据量才可以称为大数据或海量数据。这时你已经没办法用简单的统计来分析这样信息到底能得到什么结果。分析的实时性也很重要，就是不能延时，过一个星期才能获得这样的结果肯定是不行的。所以当这些订单产生了海量的信息以后科学家们，包括计算专家，互联网的从业者，甚至很多数学家大家都会研究说那我们该怎么办？我们是不是能在这中间获得一些更多的价值，当信息很多的时候，一定能从中间挖掘出更多有用的东西，那我们能挖掘出什么。
于是，有人把大家做的这些事情，称之为大数据。之前我看过很多国外的专家分享，他们会说，我现在听了这个名字以后，才知道这么多天来干的事情叫做大数据分析。
大数据到底用在什么地方？
王丹君：
现在在大数据领域，作为普通用户你能感受到的，最重要的一个价值是排序和推荐。排序大家可以理解，其实推荐也是一种排序。
可能我们群里有很多的HR群友是女生，应该都会在淘宝上买东西。近期如果大家买的比较多，会发现淘宝的搜法有了一些变化。以前，比如说搜连衣裙，可能我搜的和您搜的连衣裙结果是一样的，因为我们用的关键词都是连衣裙这三个字，但是最近，可能会发现，你再搜连衣裙，淘宝出现的排序结果，可能就不一样了。我们说这个排序的结果可能就会优先出现的是你最近搜索过的连衣裙，咱俩搜的结果不一样的时候，它就会有差别。
然后可能还会优先给你推荐的是根据以往搜索或者购买记录，你可能会喜欢那样的款式。如果你经常买的是上千块钱的连衣裙，那这个时候，它一定不会优先给你推荐六七十块钱的连衣裙。
慢慢地，我们会发现，每一个用户，即使你想在上面做同样的事情时，以往在这个平台上所做过的那些尝试和努力，它就产生了一个价值，所以你看到的最直接的结果就是顺序变化了。同样的内容大家可能在其他的电商领域也会经常看到，比如说你注册一个交友网站，它可能会根据你浏览的其他朋友的结果给你推荐新的朋友。你买了一本书，然后它会给你推荐可能相关的一些书籍。那这个时候，大数据做的主要事情就是不断地去揣摩您在这个平台上所做出的行为，不断地给你的行为构建一个模型，然后根据这个模型去匹配你有可能感兴趣的东西。最终达到你能够下单，能够在这儿付费的这样一个效果。
大数据现在用的最多的就是排序，后面会专门讲一下在HR的领域，大数据都能做一些什么。如果大数据这个领域将来大家发现，别人跟你讲大数据，只强调数据多，那他一定是耍流氓。
大数据在HR领域成功的关键是什么？
把大数据的成功关键归纳成几个方面，其实在不同的领域，包括将来如果我们在HR的领域去做大数据方面的实践，其实也是一样的。
第一个是你的数据量要大，真的数据量要大的时候，可能去使用这样的相关技术才有价值。如果说每天只产生100套200套数据，那么我用Excel可能就更快，甚至我简单地统计一下可能就更有价值，所以数据量大是大数据的第一个关键。
第二个就是存储能力，当数据量大的时候，这个数据如何去存储，如果能快速提取出来很重要，当然这个可能不是我们群友所关心的，这个是比较技术化的。
第三个就是算法和模型，所有的大数据并不是一个简单的搜索，算法和模型是非常非常重要的，一会儿给大家举个例子。
第四个是计算能力，就是数据是否能实时得到结果。如果计算的数据是上个月的结果，那可能参考意义就会比较低，但如果你能实时的得到各种各样的分析，那可能就会比较有价值。就像我们前面说的，如果你是上个月，在淘宝买了很多玉米，那这个月的时候系统才给你推荐玉米，可能这个就不是你想要的东西。所以将来如果在HR这个领域，我相信大数据也会有非常多的创新，所以大家可以每次都按我说的这个标准去衡量，它是不是有很大的数据，是不是有一定的存储能力，有合格的模型算法，然后具备实时计算的能力。
简单来讲，做这么多事情，其实它要达到的一个目的，就是从很庞杂的大量数据背后，能够挖掘和分析出用户的习惯，他们的行为，还有他们的喜好，能够自动的找出更符合用户口味的产品和服务，然后结合他的需求去调整这个推荐的产品，去调整推荐的候选人。总的来讲，现在的大数据主要的应用目的就是提高效率，然后优化资源配置。
怎样把大数据与人力资源工作的规划与优化相结合？又怎样去帮助/支撑公司去做出决策？
我觉得这个问题特别好，如果没有群友问这个问题，可能我也会想先讲一下。在HR的工作里面，可能会用到的数据分析有两类，一类是一般性的数据分析，可能大家日常都会在做，一般就叫HRdatas。
最开始时，就是记录数据，比如说统计员工的工时，然后想计算员工的效率，可能在薪酬绩效方面都会产生流量化的数据，我们将它记下来，用于描述现在的一个情况。这种HR的数据分析，尤其是在一个单一的组织里面，其实数据并不会特别多，当然如果您是在一个多样化的集团，可能数据非常多，那仍然是一个统计的工作。
我们做了许多工作去搜集数据，试图寻找一些相关性。数据的类型主要分成两类，一类叫business
data，是业务流程的分析，另外一种叫people
data，是跟人才相关的分析，比如人才情况的一些展现，还有一些是分类的信息统计等。
现在市面或者研究机构里面，真正在HR领域做了大数据，会做一些什么样的事情？
所有我们做的数据归根到底都是为了描述业务现状，能帮我们去做更好的决策。去找到关于人才，或者关于组织发展相关的一些问题的答案。
比如，老板最想问的是很多事情进行的怎么样了？你的招聘进行到什么程度了？你的人工成本有多高？你的成绩分布情况是怎么样的？然后我们去了解这些业务的现状。给大家分享一下，就是这个不是大数据，其实就算是一个数据分析，是跟人才盘点有关系的，我们在这个领域做的一点点的尝试。
这张图只算是一个数据的聚合。当我们聊数据和大数据的时候，我觉得数据应该会有几个层次，而数据的展现是所有数据使用的基础。当然更基础的是你首先得有这样的数据。上图是一个人才盘点报告，这个报告的一页纸里面能够展现出这个人各方面的特点。如个人信息、工作经历、奖罚情况、发展建议、测评结果、人才地图等。可能这个都算不上数据分析，但是这个数据能够为你所用，为决策所用，这个价值就够了。这个是最基础的，能够让您收集所有的信息展现出来。
我们当时做这份报告，现在因为也在北森的继任系统实现了。当时是为了一家人才盘点的客户，他们希望说既然我已经上了信息化的系统，已经获得了多样数据。就希望在人才盘点时，不要再打一摞报告拿到现场。我相信大家开人才盘点会，或者校准会时，每一个内部的候选人真正能用于讨论他们的时间并不多，有的公司甚至20分钟一个人都到不了。
从这个图上来看，这些信息是从不同地方获取来的。比如说员工的基本信息，包括一些项目经理的经历，可能是从他的EHR系统里面获取来的，测评结果可能是从北森的测评系统里获取来的。人才地图就是九宫格的这种可能是从以前盘点的结果导入进来的。也有可能您有继任系统，或者专门做了一个什么样的系统，从那个系统里获取来的。那领导力素质有可能会从360度评估系统里获取来，当然这个图里面还缺信息，如果更多的话还会展示绩效的一些信息。甚至是本次人才盘点，如果还请候选人做了一些准备，可能还会有一些针对本次活动的一些辅助信息。
其实我觉得是否大数据不重要，重要的是那个有用就好。你能够让你的领导也好，参与人才盘点的人也好，在特别短的时间内能够快速的把握内部候选人的特点、重点就足够了。所以即使大家将来手工做这个事情，或者是将来通过系统去呈现它。可能有几个重点，一个是不同的数据源的信息要弄到一起；第二个就是你展现的那个信息是跟你特定的使用场景非常相关的；第三个就是尽量以图视化的方式展现，而不要全是文字或者全是数字。
能就上面的问题举一些例子吗？
人才的匹配、人才的推荐，其实是大数据一个很重要的应用。比如，我们会到招聘网站发广告，上面有非常多的简历，我们可能也会搜索简历下载。这时除了我们用的这些关键词，我去用条件搜索的话怎么能在海量简历里面发现适合我的是哪些人，而不是说我随便搜一个关键词，出来以后，系统给我推荐了六千多人。有的招聘网站六千
的意思就是有无限量的结果，这个时候我发现很多用户只能通过另外一个字段就是，最近更新时间来看简历。其实并没有真正的能够实现，我们想要去优化资源，去提高效率这样的一个目的。
如上图，我们在招聘系统里面做过一个大数据方面的尝试，其实跟刚才说的那个是非常类似。很多企业缺少的不是简历，而是真正符合质量的简历。它会有很多的简历，可能暂时不符合它的需要，就会闲置下来。或者这个公司如果非常大，可能会有很多招聘者去负责招聘的工作。现在招聘的不符合我这个职位的候选人，不一定不符合其他招聘者招聘的职位候选人。那这些慢慢都会沉淀在公司的简历库里面，变成一个资源。
但是以往当我们缺简历的时候，招聘者就会在简历库里面搜索那些关键词。比如说UI工程师，比如说销售经理，会计这样一些职位的关键人。这个时候我们所得到的结果，就跟你能想到的那个搜索条件是一致的。你没用这个搜索条件限定肯定就不行，慢慢的我们发现当大数据这个东西可以应用在这个地方的时候，我们就做了这样的一个尝试。
此处文字较多，先休息一下。我们继续往下看
我们会根据招聘者筛选简历的习惯，不停的建立他的一个喜好模型。比如说，产品经理这个职位。他认为可以进入下一关的和被淘汰的产品经理，去根据他做出这样的判断，在背后做一个建模。那这个模型怎么建呢？他喜欢和不喜欢肯定有他的原因，我们在背后把一个候选人切分成了一百多个字段，我们就会在这个字段里面去找到他喜欢或不喜欢的原因，去建这样的模型。
这个模型建好以后呢，我们就会从已有公共的简历库里面去筛选符合他这个喜好的一些候选人推荐给他。推荐的过程比较简单，就像大家图上看到的那样。其实这个是帮他从其他的人才库里，挖掘过来的一些候选人，那他就可以去做这样的联系。随着他的筛选越来越多，我们会不停的帮他建立这样的模型，希望能够更精准的获得他的一个喜好，能够去给他推荐更多的候选人，做过这样的一个尝试。这个其实是现在特别典型，也是非常正点的大数据在HR领域的一个应用。
那另外还有一个应用方面是预测。刚才说的第一种推荐的大数据的应用领域，其实是在人才的匹配和推荐。主要是简历推荐，就是招聘这个领域用的是最多的。当然在公司里面，比如说我们公司是几万人的公司，其实也非常鼓励版块之间人才流动的时候，将来也可以通过这样的算法去做人才的推荐、挖掘。北森现在也在尝试帮助客户做这样的事情，在你这样的岗位上通过同类型的岗位绩效优秀的员工，他具备什么样不同的特点。当你这个岗位上再有空缺人选的时候，我们可以从你的人才库里。这个指的主要是内部人员，能够挖掘出哪些推荐人才，然后看看有没有替补的可能性。
但在实际的过程中可能还会遇到各种各样的困难。比如他可能在他的岗位上绩效也很好，他不愿意调配到你的岗位等等这一系列的问题，甚至将来还有很多伦理问题，谁能看，谁不能看，谁能知道，谁不能知道。我们也会慢慢的在这些方面做更多的探索。这是大数据在HR领域的第一类应用，就是人才匹配和人才推荐，结果就是做人才挖掘。
再休息休息，我们继续撒
第二类的应用比较有名的就是做临时预测。很多大数据的里面会提到很多年前惠普在内部做的人才离职预测。其实方法并不是特别复杂，它会把一个人离职的原因根据以往的研究分成很多项，去建这样的模型。把每一个人，每一个内部人才，包括它的数据网上去测试，看看谁有离职的可能性。比如说近些年的一些研究，会发现如果你这个员工在社交网络上，比如微信朋友圈很少发公司的信息，不管是公司的广告、招聘信息，或者公司一些市场活动的信息从来没发这些，但是每天会发吃喝玩乐，那他会认为这个员工，可能对公司的满意程度很低。
也有研究会证明，员工在公司3-7年是比较稳定的，头三年是比较不稳定的。那过了七年，不稳定的可能性也比较大。可能也会把您在公司的司龄作为一个重要的因素。当然可能还有在本岗位的时间、绩效水平等等。比如之前我看过也在这个领域去做的一些人，如果你在这个岗位上三年应该晋升，但其实你已经工作了五年，他就会认为你有很强离职的可能性，因为你的岗位没有得到晋升一定会有原因等等。有很多很多的因素，都会有这个影响，甚至包括说是否有子女，子女的年龄，收入状况、配偶的情况、身体状况等等很多的信息。
这些信息会建立一个离职的预测模型，那接下来简单的事情就是把员工去跟它测试。这些信息每年都会变，甚至比如像绩效这些信息记录都会变。每年会整个像做人才盘点一遍，去测试一遍员工离职的倾向是什么样的。当时惠普做了这样的事情以后，一直被人追捧。包括国内很多公司也在做这样的事情，北森也试图尝试过去做这样的一些预测，去获得这样的一些结果。那可能有人说这些信息我们公司没有，没关系，如果群友们觉得说，或者您所在的公司觉得这个东西很有用的话，我们一定会想尽办法收集这些信息。
这个算是在大数据领域另外一个挺经典的HR的一个应用的案例。但是北森在今年上半年的时候，针对离职预测模型的这个应用也做了一些调查，我们也跟合作伙伴一起在做离职预测。但后来发现其实我们可以得到各种各样的结果。我也可以做出员工的名单，但实际上它会存在一些非常现实的问题。我们发现用人部门对这样的结果并不感冒，他们认为说你预测出了某一个员工要离职。OK，如果这个员工要离职这个事情我知道，比如说已经有迹象了，甚至可能已经向我透露了，那这个预测结果对我没有任何价值。
那当然你有可能预测出来的这个员工要离职，是我不知道的。但是又能怎么样呢，基于已往的经验，这种有离职倾向的员工。包括那些比如说在招聘网站也刷简历的员工，那他将来走的可能性非常大，你告诉我这个事情，其实对我也没有特别大的帮助。因为我最想的是，可能是留住他，而不是去获得新的人才。
可想而知我们将来在组织里边，试图做这样的事情时，可能大家将来面临的这些压力和困难，并不来自于算法和模型本身，不来自于大数据这件事本身。而是来自于我们去做预测这个事情本身，它在组织内怎么被接受，怎么样能发挥更大的价值。当然后面理论界一直不会停息探索的脚步，所以现在我们考虑做预测模型，也会去做更积极正向一点的，我们希望知道员工的生命周期，这个对于在岗的员工也是很有意义的，尤其大家在人才盘点的时候，那些关键核心的人才。
关于人才盘点，你可能还需要☟☟☟
想咨询了解人才盘点解决方案或人才测评在盘点中如何应用，可以点击，或给北森微博发消息，或致电400
650 6878。
9月10日北森首届用户生态大会将在国家会议中心举办，届时将有分会场现场为大家分享大数据时代下的招聘管理！快扫码报名吧！
已投稿到：
以上网友发言只代表其个人观点，不代表新浪网的观点或立场。}

我爱游戏网