大数据来源的概念可能不同的人會有不同的理解我自己从08年开始从事大数据来源相关的工作,那个时候我们是觉得自己搞的是云计算和数据来源仓库而到了2011、2012年的时候,国内大数据来源的概念才兴起来之后就是炒了三年的概念。
因为从事这一方向这几年不断会有人问我什么是大数据来源?我一直嘟回答不好在最近的几个月,我对这一概念思考的更多一些结合看过的一些资料(如《大数据来源时代》、《数学之美》第二版、《矽谷之谜》、吴军的演讲材料等)和实际的经历,算是有了一些认识与其说认识,还不如说是总结换个角度看待这个问题,分为大数據来源概念和大数据来源思维
我把大数据来源的概念总结为四个字:大、全、细、时。
大数据来源之大我们先来看一组数据来源:
-
百度烸天采集的用户行为数据来源有1.5PB以上
-
全国各地级市今天的苹果价格数据来源有2MB
-
1998年Google抓取的互联网页面共有47GB(压缩后)
-
一台风力发电机每天产苼的振动数据来源有50GB
百度每天的行为数据来源1.5个PB够大吧我们毫无怀疑这是大数据来源。但全国各个地级市今天的苹果价格只有2MB大小是典型的小数据来源吧?但如果我们基于这个数据来源做一个苹果分销的智能调度系统,这就是个牛逼的大数据来源应用了Google在刚成立的時候,佩奇和布林下载了整个互联网的页面在压缩后也就47GB大小,现在一个U盘都能装的下但Google搜索显然是个大数据来源的应用。如果再来看一台风机每天的振动数据来源可能都有50GB但这个数据来源只是针对这一台风机的,并不能从覆盖面上起到多大的作用,这我认为不能叫大数据来源
这里就是在强调大,是Big不是Large我们强调的是抽象意义的大。
大数据来源之全我们再来看关于美国大选的三次事件:
-
1936年《文學文摘》收集了240万份调查问卷预测错误
-
新闻学教授盖洛普只收集了5万人的意见,预测罗斯福连任正确
-
2012年Nate Silver通过互联网采集社交、新闻数据來源预测大选结果
《文学文摘》所收集的问卷有240万,绝对是够大的但为什么预测错误了呢?当时《文学文摘》是通过电话调查的能夠装电话的就是一类富人,这类人本身就有不同的政治倾向调查的结果本身就是偏的。而盖洛普只收集了5万人的意见但是他采用按照社会人群按照比例抽样,然后汇集总体结果反而预测正确了。因为这次预测盖洛普一炮而红,现在成了一个著名的调研公司当然,後来盖洛普也有预测失败的时候到了2012年,一个名不见经传的人物Nate
Silver通过采集网上的社交、新闻数据来源这是他预测的情况和真实的情况:
}
天下没有免费的午餐要是让你買同一个东西,一个1块钱一个10块钱,你会要哪个(一分价钱一分货)
}