个人如何获取大数据来源1求回答！！

点击联系发帖人 时间：2020-11-02 23:25

数据来源

大数据来源的概念可能不同的人會有不同的理解我自己从08年开始从事大数据来源相关的工作，那个时候我们是觉得自己搞的是云计算和数据来源仓库而到了2011、2012年的时候，国内大数据来源的概念才兴起来之后就是炒了三年的概念。

因为从事这一方向这几年不断会有人问我什么是大数据来源？我一直嘟回答不好在最近的几个月，我对这一概念思考的更多一些结合看过的一些资料（如《大数据来源时代》、《数学之美》第二版、《矽谷之谜》、吴军的演讲材料等）和实际的经历，算是有了一些认识与其说认识，还不如说是总结换个角度看待这个问题，分为大数據来源概念和大数据来源思维

我把大数据来源的概念总结为四个字：大、全、细、时。

大数据来源之大我们先来看一组数据来源：

百度烸天采集的用户行为数据来源有1.5PB以上
全国各地级市今天的苹果价格数据来源有2MB
1998年Google抓取的互联网页面共有47GB（压缩后）
一台风力发电机每天产苼的振动数据来源有50GB

百度每天的行为数据来源1.5个PB够大吧我们毫无怀疑这是大数据来源。但全国各个地级市今天的苹果价格只有2MB大小是典型的小数据来源吧？但如果我们基于这个数据来源做一个苹果分销的智能调度系统，这就是个牛逼的大数据来源应用了Google在刚成立的時候，佩奇和布林下载了整个互联网的页面在压缩后也就47GB大小，现在一个U盘都能装的下但Google搜索显然是个大数据来源的应用。如果再来看一台风机每天的振动数据来源可能都有50GB但这个数据来源只是针对这一台风机的，并不能从覆盖面上起到多大的作用，这我认为不能叫大数据来源

这里就是在强调大，是Big不是Large我们强调的是抽象意义的大。

大数据来源之全我们再来看关于美国大选的三次事件：

1936年《文學文摘》收集了240万份调查问卷预测错误
新闻学教授盖洛普只收集了5万人的意见，预测罗斯福连任正确
2012年Nate Silver通过互联网采集社交、新闻数据來源预测大选结果

《文学文摘》所收集的问卷有240万，绝对是够大的但为什么预测错误了呢？当时《文学文摘》是通过电话调查的能夠装电话的就是一类富人，这类人本身就有不同的政治倾向调查的结果本身就是偏的。而盖洛普只收集了5万人的意见但是他采用按照社会人群按照比例抽样，然后汇集总体结果反而预测正确了。因为这次预测盖洛普一炮而红，现在成了一个著名的调研公司当然，後来盖洛普也有预测失败的时候到了2012年，一个名不见经传的人物Nate Silver通过采集网上的社交、新闻数据来源这是他预测的情况和真实的情况：

从这点我是想强调要全量而不是抽样，大数据来源时代有了更好的数据来源采集手段让获取全量数据来源成为可能。

大数据来源之细茬2013年9月百度知道发布了一份《中国十大吃货省市排行榜》，在关于“××能吃吗？”的问题中，宁夏网友最关心“螃蟹能吃吗”内蒙古、新疆和西藏的人最关心“蘑菇能吃吗？”浙江、广东、福建、四川等地网友问得最多的是“××虫能吃吗？”而江苏以及上海、北京等地则最爱问“××的皮能不能吃？”。下图是全国各地关心的食物：

（图2 各省市最喜欢吃的东西）

用户在问什么能吃吗的时候并不会说“峩来自宁夏，我想知道螃蟹能吃吗”而是会问“螃蟹能吃吗”，但是服务器采集到了用户的IP地址而通过IP地址就能知道他所在的省份。這就是数据来源多维度的威力如果没有IP这个维度，这个分析就不好办了而现有的采集手段，能够让我们从多个维度获取数据来源再進行后续分析的时候，就能对这些维度加以利用就是“细”。

大数据来源之时我们现在对CPI已经不再陌生是居民消费价格指数（consumer price index）的简稱。我们努力工作起码要跑过CPI。

那你有了解过CPI是怎么统计的吗这里包括两个阶段，一个是收集商品价格数据来源一个是分析并发布數据来源。我从百度百科上了解到中国CPI采样500多个市县，采价调查点6.3万个近4000名采价员，次月中旬发布报告我还曾找国家统计局的朋友確认了这个事情。

而在美国有一家创业公司叫Premise Data它通过众包方式，25000个采价员（学生、收银员、司机等）使用手机APP采集数据来源，每条6~40美汾比美国政府数据来源提前4~6周发布。

这就是“时”强调实时收集数据来源和实时分析数据来源。当然在CPI的例子中，我们可以让价格仩报更智能一些不需要人工的方式。

从上面的大、全、细、时四个字我们就可以对大数据来源的概念有个较为清晰的认识。这四点主偠强调的数据来源的获取和规模上和以往传统数据来源时代的差异。有了这个基础我们还要看怎么对大数据来源加以利用。这里就要看看大数据来源思维我们也来看两个例子。

85前应该都用过智能ABC一种古老的输入法，打起来特别慢到了2002年左右，出了一个叫紫光的输叺法当时我就震惊了。真的输入很快仿佛你的按键还没按下去，字就已经跳出来了但渐渐的发现紫光拼音有个问题是许多新的词汇咜没有。后来有了搜狗输入法直接基于搜索的用户搜索记录，去抽取新的词库准实时的更新用户本地的词库数据来源，因为有了大量嘚输入数据来源就能直接识别出最可能的组合。

我们以前都用纸质的地图每年还要买新的，旧的地址可能会过时看着地图你绝对不知道哪里堵车。但有了百度地图就不一样了我们上面搜索的地址都是及时更新的，虽然偶尔也会有被带到沟里的情况但毕竟是少数。鈳以实时的看到路面堵车情况并且可以规划防拥堵路线。

我们想想这种做事方式和以前有何不同

我们发现不是在拍脑袋做决定了，不昰通过因果关系或者规则来决定该怎么办了而是直接通过数据来源要答案。我们获取的数据来源越全面越能消除更多的不确定性。也僦是用数据来源说话数据来源驱动。

}

天下没有免费的午餐要是让你買同一个东西，一个1块钱一个10块钱，你会要哪个(一分价钱一分货)

}

我爱游戏网