大数据可以帮人们数据库选择和判断信息吗

点击联系发帖人 时间：2017-10-19 04:40

如何分析数据

2016年百万公众信息考试试题及答案_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
2016年百万公众信息考试试题及答案
阅读已结束，下载文档到电脑
想免费下载本文？
定制HR最喜欢的简历
下载文档到电脑，方便使用
还剩273页未读，继续阅读
定制HR最喜欢的简历
你可能喜欢个人数据时代即将到来！谁将成为个人大数据、大健康服务的“领头羊”？_凤凰财经
& 财经滚动新闻
& 财经滚动新闻 & 正文
个人数据时代即将到来！谁将成为个人大数据、大健康服务的“领头羊”？
用微信扫描二维码分享至好友和朋友圈
当我们提到大数据的时候，我们首先想到什么？是滴滴打车对出租车资源的合理分配？还是广告、营销计划的精准投放？还是利用大数据提高制造业效率？
今年3月，李克强总理在政府工作报告上强调，要把人工智能、大数据推广到各行各业中，包括商业、医疗、制造、教育、城市等。
国家对大数据的高度重视，意味着大数据将在中国繁荣发展，在世界遍地开花，在不久的将来，大数据将会渗透到我们生活的每一个环节，每一个场景应用中，那么大数据对个体的提高又有着怎样的意义？中国企业将在推进“个人大数据、大健康服务”中起着怎样的作用？谁又会成为这个行业的“引领者”？
一、大数据对个体的核心价值是什么？
从本质上来讲，大数据就是分析海量数据，从而获得有价值性东西的新方式。通过对数据的收集、挖掘、分析、反馈，从而实现为个人活动提供决策依据并做出干预，这正是大数据对个人的核心价值所在。
以大数据在大健康领域的应用为例：根据瑞士公司Soreon研究预测，到2020年智能可穿戴设备能帮助挽救130万人的生命，挽救人数主要来自于在医院监测使用的可穿戴设备减少的死亡率。这正是可穿戴设备所收集到的离人体更近的体征数据所发挥的重要作用。
通过对人体体征数据的持续监测，医生可以根据数据信息持续跟踪患者的后续治疗，动态评价药物的疗效，及时跟踪患者的康复进展情况，发现潜在的风险因素。同时对暂时无法痊愈的疾病，如糖尿病进行饮食控制和血糖监控。还有些疾病复发概率高，如心脏病，需要时时监测，及时复查以免病情突变。而对某些遗传性疾病，数据服务可以通过个人日常生活和体征数据判断其发病概率，并在大数据的基础上对其日常生活进行干预。
二、针对个人的数据服务的关键
1.硬件载体
随着智能可穿戴设备从简单的功能集合向数据服务和场景应用转变，人们对数据来源的稳定可靠和持续性的要求越来越高。通过可穿戴设备获得的人体体征数据、人体活动轨迹以及环境监测数据，在后台算法和相关交互的联系下，可穿戴设备成为连接人与世界的纽带，使得大数据、大健康的落地成为可能。
在众多的可穿戴设备中，腕带产品以“离人体更近、佩戴时间更长”在体征数据的采集上有着极大的优势。然而，在传感器而非计算中心的现实定位下，Apple Watch等与手机功能高度重叠，却又不具备独立使用价值，反而牺牲了续航和价格优势的产品，俨然不符合稳定可靠性的目标。这就需要对可穿戴产品的功能进行取舍，保留低功耗且刚需的核心功能，以延长产品的续航和美观度。
2.软件交互设计
不同人群的需求在交互方式、交互反馈内容上都有着不同的需求。判断一种交互方式优秀与否，关键在于它有多符合人的需求、它能覆盖多少场景、它是否能提升任务完成的效率以及它的实施成本。综上，在当下，智能手机的普及，利用手机App作为交互方式是一个经济而又实用的方式。通过App与不同人群，不同场景可做定向匹配，从而满足不同细分群体的需求。
然而，在不同的人群、不同的场景、不同的行业应用分别展开，这对数据交互层面的技术层次和匹配协议都有着很高的要求，这不是一般的公司能做的。大企业如果在这件事上也没有看清摸透，没有长期积累，也不可能快速实现产品落地。
3.后台数据服务
人们对可穿戴设备的需求已经发生了本质上的改变。从单纯的功能化需求向场景化需求转型，从简单功能向各个细分群体的个性化应用转变。这一切都不是单一的设备所能实现的，要让腕带产品与数据服务相结合，让腕带产品与其他智能硬件相结合，让可穿戴设备满足用户需求。这就需要一个强大的后台系统：从数据模型的搭建开始保证数据的精确性，对算法模型上的优化，保证数据分类挖掘、分析的针对性和准确性，通过机器自动学习自动建立起运动、健康等数据逻辑，预测未来的个体行为方式，提供分析、干预、建议，并可接入第三方机构和应用，提供更专业的数据挖掘和服务。
大数据时代，大量的训练样本和丰富的特征维度使得学习算法更容易学到较好的模型。然而由于机器学习算法大多为迭代算法，加之算法复杂度的增加，使得模型训练的计算量随数据量和特征数量的增长极速增加，机器学习技术将始终面临着计算资源相对不足的问题。
因此，算法的设计便显得尤为重要，往往决定大数据企业是否具有核心竞争力。计算资源不足的问题可以通过降低算法迭代次数解决，也可以通过优化算法解决，使其无需迭代即可训练出较好的模型。
目前，还没有看到市场上有清晰的脉络，并且在三大系统链条上打通的企业案例，但这又是个人大数据落地的前提。
三、智芯：让个人健康、场景应用和数据服务真正落地
针对个人的数据服务真正落地，在这个领域，缺乏的是对行业价值梳理和定义的企业，是领导者，这是中国企业进去无人区后的茫然，也是中国企业的机会。
据了解，国内企业如深圳智能表芯科技有限公司已经利用智能硬件、内容交互和后台大数据等新兴技术环境来构建一个离人体更近，更了解与人相关场景的完整用户价值体系。率先在大健康、大数据领域形成价值闭环，并真正实现落地。
一直以来，智芯致力于推动个人行为与健康数据服务，让大数据为更多人服务。智芯推出PMPD个人行为与健康数据服务系统，推动可穿戴设备从简单的数据呈现到场景应用和数据服务，让用户从时间管理、运动、看护、医疗、健康管理各个场景，都能有更加便利、高效的体验。
硬件上，目前从场景应用、人群细分和持续性数据价值推送三个维度，已成功开发出C、F、H三大机芯系列共18款智能表芯产品，支持几十万种产品形态。并且在多项技术参数上引领全球，例如智能表芯 C002的厚度仅有4.2mm，智能表芯 C003直径仅有 25 mm，均为目前行业中的极限尺寸。由于在底层架构算法、元器件选型等方面的低功耗控制技术，C系列机芯产品做到了最短4个月，最长24个月的续航时间成绩。
App交互系统上，智芯近期推出App4.0，从交互方式的趣味性和个性化入手，为不同的人群提供个性化内容与反馈。让产品更好玩，符合用户使用习惯并满足个性化、场景化体验。
后台数据服务上，以数据应用为核心，构建出可多硬件终端、软件平台兼容的大数据后台，形成完整的个人行为与健康数据档案。
智芯目前拥有有效专利62项，其中发明专利3项；授权专利62项、受理中专利44项。
从去年开始，智芯就已经受到了来自国内外企业及投资机构的高度关注。
据悉，随着智芯公司股权结构调整的告一段落，接下来的工作重心将放在技术的升级和全球市场的拓展上，全球性市场推广活动将在近期启动，作为“引领者”的智芯公司调整后整装待发，将会在“个人大数据、大健康服务”中给我们带来怎样的惊喜呢？不放我们拭目以待吧！
用微信扫描二维码分享至好友和朋友圈
免责声明：本文仅代表作者个人观点，与凤凰网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。
预期年化利率
凤凰点评：凤凰集团旗下公司，轻松理财。
凤凰点评：业绩长期领先，投资尖端行业。
凤凰点评：进可攻退可守，抗跌性能尤佳。
同系近一年收益
凤凰点评：震荡市场首选，防御性能极佳且收益喜人，老总私人追加百万。
凤凰财经官方微信
播放数：1386874
播放数：1810742
播放数：440024
播放数：5808920【解读】大数据与市场研究
SocialBeta
【解读】大数据与市场研究
SocialBeta　|　 08:48
大数据这个概念近来一直受到关注。大数据并非一个确切的概念，这个概念一方面指数据体量巨大，超出一般电脑所处理数据量几个级别；另一方面也指处理的数据类型多样化，远远超出传统数据格式和分析工具能处理的范畴。也有观点指大数据是指不用抽样方法得到的数据。在这篇文章中，我从社会学科研究方式发展的角度来阐述大数据的影响，以及大数据和市场研究的相互关系。
第一次数据化的影响 - 定性研究和定量研究
市场研究是一门应用社会学的学科，一个基本的分类就是定性研究和定量研究。简单地说，定量研究一定有数字分析，定性研究没有数字分析。大多数研究人员也各自站队为定量研究人员和定性研究人员。我们先来讨论一下这样划分的本质是什么。
在几乎所有社会科学的学科中，最一开始的数据都是非数字的。比如，我们去做问卷调查询问被访者，你家有汽车吗？如果有，我们打一个勾。在把这些答案转化为数据之后，我们可以计算有多少比例的被访者有汽车等等。这个把非数字的信息数字化的过程，我们称之为数据化。这个过程在本质上同把声音数字化和图像数字化的过程并没有区别。
因此，数据的本质都是定性的。研究人员可以选择直接处理定性数据，也可以选择多走一步数据化后处理定量数据。没有哪一种方法在本质上更好。事实上，两种方式都产生了伟大的研究。（由于篇幅限制，这里不举例说明了。）
但在现实中不容否认的是，定量研究似乎享受更高的社会地位。在西方各个社会学科定量研究发展的初期，定量研究常常和具备高级数量分析技巧的和相应工作语言的年轻博士挂钩，定量研究被认为是未来，校园里许多年老的教授和研究者困惑不已并感受到压力。许多大学都大力投资来支持定量研究，Departments of Government 被改名为Departments of Political Sciences, Departments of Speech 被改名为Departments of Communication, 即便名字没改，研究的内容已经发生变化了，社会学科转向定量研究的风潮可见一斑。那个时候年轻学者对数据的兴趣和痴迷不低于今日。归其原因，一方面由于测量理论的发展，许多研究主体数据化，定量研究从科学发展的浪潮中受益了；另一方面电脑的发展也促成了这个变化。
当电脑开始在美国大学变得不那么神秘的60年代初期，它们是不适合社会科学研究的，电脑的应用是围绕着物理科学来进行的。物理科学通常要求在很小的数据量上进行非常复杂的运算，而社会科学通常的数据量很“大”。那个时候物理科学可以拿到很多的资助，所以大部分软件和程序都是围绕物理科学开发的。直到60年代末期才出现比较强大的为社会科学研究而设计的分析软件。
70年代末的个人计算机的出现让社会科学定量研究看到了普及的希望。微型化的、能支付的起的电脑已经足够强大，可以做很多常规分析，但是它们不能处理“大”数据。碰到大的数据样本，只能手动的去计算，直到八十年代的微型电脑内存技术有了革命性的变化。新型电脑不仅能进行大样本的简单处理和分析，而且能进行复杂的运算，比如因子分析，最小空间分析等等。一个定量研究者和一台微型电脑所做的分析，就能轻易超过以前一个团队和一个机房才能做的分析。
于是，微型电脑给定量研究带来了我们所能看见的明显优势。然而，微型电脑给定性研究也带来了同样的优势，只是我们不太注意罢了。比如，以前我们做定性研究访问的时候，一般就是记笔记。现在我可以带着我的个人电脑现场记录，也可以轻松地剪辑录像仔细解读。当我们写定性报告的时候，现在可以很轻松的检索信息，旁引博证，插入图片等，还可以轻松的把文字和其它信息挪动。互联网也使得远程图书馆发展起来，对定性研究的帮助也是一日千里。
你或许觉得电脑在定性研究上的应用比起定量研究来太苍白了，但是我们仔细想一想，电脑对定量研究的贡献不也是让研究者轻松地去做过去能做但很费时费力的分析工作吗？
虽然性质相同，但定性研究和定量研究其实有自己不同的优势和劣势，他们完美的互补。一个好的研究人员应该对定性和定量都不陌生，当碰到实际问题的时候，应该能同时考虑定性和定量的选择。定性和定量都需要特殊的训练，现实中一个人精力和时间是有限的，我们也总想擅长点什么，所以偏向定性或定量就顺理成章了。但我们必须警惕专业化中潜伏的危险：定量人员会经常把统计分析的表面结果当成一切，定性人员也会经常把观点当成观察，把感觉当成发现。
时间已经证明，定性方法并没有被淹没在数据化的浪潮中。相反，定性方法和定量方法在生活中处处体现，他们或者平行或者交叉，不可分离。我们可以用数字形容汽车的速度，但不能用数字描述一个孩子的可爱。另一方面，我们知道一个人的捐赠大小是不足以测量一个人善心的，但是他们之间也不是没有关系；我们知道有高度不代表你能打篮球中锋，但没有高度你是万万不行的。定性和定量，你中有我，我中有你。
如果我们把六、七十年代数据化带给社会学科研究方法的变化
定量研究和定性研究的分野和发展，看作是第一次数据化浪潮冲击的话，那么大数据将会给社会科学研究方式带来第二次冲击。
大数据及其分析
如今大数据带给我们社会科学研究者的两难境地就如同以前数据化带给定性研究者的两难境地一样。一方面，稍微一点想象，所有事物都可能转化为数据形式，并且给我们带来冲击。把世间万物转化为数据的需求来源于人类测量、记录和分析世界的渴望（舍恩伯格和库克耶 2013）。另一方面，我们面对大数据，却缺少分析大数据的思路、方法、甚至工具。所以不奇怪的是现在的很多社会学科研究者采取抽样的方式来分析大数据。
过去定量研究的一个关键支柱是抽样理论。过去由于获得数据的昂贵，我们倾向于用最少的数据量获得最多的信息，抽样省时省力省钱；而且由于技术分析手段的局限性，我们也只能处理分析“小数据”。那如何保证抽样的结果能比较客观的代表总体呢？依据所研究的问题，满足随机抽样（经典抽样）或最优抽样的标准，就能最大限度的保证精确性。抽样理论实际上获得了巨大成功，成为现代社会、现代测量领域的支柱。
抽样数据相比全体数据是在不可收集和分析全部数据的情况下的选择。在数据成本越来越低的时代，促使我们来使用样本数据的经济原因已经被撼动。另外，样本数据的成功取决于抽样的随机性，但在抽样的实际工作中保证随机性是非常困难的。我们市场研究的同事都知道，当前无论采用什么方法做抽样，比如电话，入户，街头拦截等等，有一系列的操作上的障碍使你无法保证样本的随机性。祝建华教授在一次讨论中提到，如果抽样的对象很复杂，比如“网络”，那么根本找不到一个最优抽样的判断标准，更不可能奢求以抽样求得的小网络能反映大网络的情况。
另一个我们不主张使用样本数据来研究大数据的理由是，样本数据会给我们的分析方法带来困惑和障碍。举个例子，我们做回归分析的时候，变量之间的多元共线性是一个严重干扰我们估计Beta的因素。但是当样本扩大到非常大的时候，这个影响趋于零。这一点无论是通过模拟数据还是真实数据都得到了验证。我们有文章在AMA的会议上发表。
样本数据一旦收集完成，它的应用就相应的缺乏延展性。比如，我们难以或者不可以重新分析这些数据以验证计划之外的想法；当我们的分析单位越来越小的时候，样本数据的错误率变得越来越高，因为落到一个分析单位上的样本量越来越小；样本数据常常不能帮助我们完成对异常或小概率事件的分析，而发现和预测这些小概率事件常常是数据分析的一个重要目的。
那么，大数据研究的目的是什么呢？通常在社会科学领域中，我们的研究目的是发现和验证事物之间的因果关系，然而发现和分析因果关系是非常困难的一项任务。例如一个14岁的初中学生跳楼了，是什么原因导致他这种行为呢？媒体对其他青少年相似行为的报导？社会大环境所致？学校功课的压力？家庭不和睦？个人心理状态？和同学吵架之后的过激念头导致？……我们可以列出上百种可能的因素，因为社会现象之复杂，各种事物之间确实有存在着千丝万缕的联系。我们当然很容易说这些因素都有可能是原因，也可以简而化之说学校压力是主因，但这些表述对我们没有任何价值。
因果关系的成立是有一系列严格条件的。在各社会学科研究中，我们通常从建立假设开始，然后进行实验设计和抽样，通过对比检验，这个假设或者成立或者被推翻。所建立的假设通常来源于定性研究、理论、其它研究或者灵感。即便假设成立，因为抽样的原因和其它因素，也要明确其适用范围，整个过程费时费力。美国著名社会学家厄尔o芭比博士曾经指出，社会科学研究结果的最佳表述方式是概率，是相关关系，而非因果关系。这一点与舍恩伯格在《大数据时代》中提倡的“转向相关关系”分析有异曲同工之妙。
舍恩伯格提倡在大数据的分析中，人们应该从对于因果关系的追求中解脱出来，转而将注意力放在相关关系的发现和使用上来。只要发现了事物之间的相关关系，那么就已经能产生巨大的经济和社会效益。他通过实际的案例说明，大数据和相关分析的结合已经产生了许多巨大的发现，并且由于数据大，能够令我们更有机会发现有价值的局部相关关系。
在小样本时代，数据稀缺，所以我们首先追求数据精确，其次追求结果精确。但大数据时代，数据之杂，不可能精确，追求数据的精确就会导致我们寸步难行，数据不精确会成为一个常态，也是世界的本质。数据不精确，结果也很难“精确”。但机器学习理论和实践都证明，允许数据的混杂和不精确，我们分析所得出的结论才更有延展性和外部适用性。
因为大数据中很大比例是文本数据，分析的很大障碍是机器的语义分析能力。只有具备了一定的语义分析能力，机器分析才有价值，文本形式的大数据才能得到有效分析。目前的大多数语义分析能力都是采用有监督的机器学习。机器学习包括训练集的质量，训练集规模和机器学习算法，训练集的质量是可以采用人工标注的方式来提高。此外，对市场研究而言，品类知识也是需要机器事先储备的。
可以想象，未来云计算和云储存的普及，大数据分析方法的发展以及针对大数据的智能软件的开发，将会为个人处理分析大数据提供必要的物质条件，就如同七、八十年代微型计算机、内存和相应软件的开发会为定量研究带来的变化一样。
大数据时代传统市场研究的价值
大数据带来的数据化浪潮已经触动市场研究的每一个人。Joan Lewis，宝洁全球客户和市场知识官, 2011年ARF的演讲中呼吁要让社会化媒体的大数据应用于市场研究。她讲到了以下几点：
数据的丰富性和自主性
社会化媒体数据包含了消费者的购买习惯，用户需求，品牌偏好等，且都是消费者自愿表述的对产品满意度和质量问题的想法，充满了情感因素，我们无需费尽心思的引导消费者参与调查问卷
减少研究的“未知”视角　市场问卷调查有其固有的局限性，那就是你必须明确你的问题是什么。问卷设计者本身有未知的方面，所以在设计问题时会忽略自己的“未知”，但这些“未知”很有可能就是消费者所需要的方面
数据的实时化的特征　不同于以往的发放回收市场调研报告再解决消费者问题，如今可以使营销人员快速发起营销活动，第一时间测试营销新方法，同时可以第一时间确认理解和追踪消费者的反馈
数据的低投入特征
传统的市场调研方式费工费时，结合社会化媒体的市场调研则是低投入高回报的产业。使用正确的调研产品和方法便可以对消费者群体的用户习惯和反馈进行透彻分析。运用社会化媒体监测软件帮助企业在线倾听消费者意见，评估获取其见解。
市场研究的使命是揭示消费者视角，为企业提供有价值的洞察和支持企业做出有意义的决策。从这个意义上来说，每一个市场研究人员都应该为社会化媒体平台和数据欢呼，因为它弥补了问卷数据一些方面的不足。（你是不是经常会发现，当我们从事另一个领域的工作时，才会意识到原来工作方法的不足和优点。）另一方面，针对社会化媒体数据分析的新兴公司确实对传统的市场研究公司形成竞争和挑战。
竞争的最大压力是传统的市场研究还没有适应社会化媒体大数据时代的研究体系。正如Joe Tripodi (可口可乐营销副总裁)在《哈佛商业评论》（2011年4月）上指出的，“在印象时代，通过问卷询问方式获取的知名度，使用率，认知度等衡量品牌健康的指标体系，在消费者表达的时代就未必适用。因此，从品牌建设效果衡量的角度，也需要一套适应消费者表达时代的指标体系。”同时，尽管对大数据的整合与分析才刚刚起步，但已经有了一系列令人耳目一新的发现和应用。无数的案例和论著都指出，大数据的整合和分析，其前景和应用不可限量。
传统的市场研究的价值在哪里？或者说，其应该坚守什么才更有价值？
坚持基于人类本性的研究框架（陈富国，MetaThink的CEO，2012在CMRA会议上的演讲）。人的行为和态度归根结底是人的本性来决定的，坚持对人类本性的研究才能更好的帮助我们深度理解人类行为模式，以及动察人类行为的变迁。加强对生活本质、生活价值和生命认知的理解，加强对于“意义、“需要”、“体验”和“情感”等等人类内部语言和图式的挖掘。机器不但缺乏“体验”和“情感”，而且缺乏对“意义”和“需要”的理解。由于人类本身具有的抽象思维和语言文本分析能力，正能达到我们在此一领域所需要的深度。
坚持广度坚持人与自然，人与社会的研究广度。人类的行为模式是在与自然环境和社会环境的互动中演进的，演进的过程复杂而又有趣。加强对于“个人与群体”，“群体与群体”等等社会群体内部形式和意义的挖掘。互联网已经深刻地改变了人类的群体构成方式（Hayes 2010），而对其意义的思考和挖掘才刚刚起步。
坚持实验设计
实验设计的本质是“控制”。在半人工的环境里我们控制一些因素来测试这些因素的影响和结果，这种研究常被用来探究营销和产品元素的影响。这种方法直接，且非常有效果。例如基于实验设计的联合分析，具有坚实的科学依据，它主要以实验设计科学和数学心理学为基础。到目前为止，联合分析已经发展成为一种含有多种方法的体系，并改变了许多企业的新产品开发过程和市场战略。许多出色的产品，比如麦斯威尔咖啡，拍宝面酱，Courtyard酒店等等，都是联合分析的产出。除此之外，联合分析方法在统计学上的严谨性和灵活性也受到其它领域从业人员和学者的关注，并被大量应用于交通研究、政府政策、医学、经济学以及政治科学等领域。
坚持模型化
模型，简单的说，就是一种事物之间联系和运作的方式。开发模型（探索事物之间的联系和运作方式）是一个非常艰苦的过程，但一旦模型成立，却能极大的简化人们的思维和决策过程。营销人员在繁杂的运作中，需要找到营销元素之间的关联，市场研究要坚持能立足于这一点。
坚持发展测量工具市场研究本质就是测量，但测量需要测量工具和方法。营销在目前有许多相对抽象的概念，没有对这些概念以及概念之间关系的测量，就没有营销大的发展，比如品牌资产，购买意向等等。
坚持这些原则和方法并不排斥社会化媒体和大数据。恰恰相反，社会化媒体为我们提供了观察和理解消费者互联网生活的平台，毕竟互联网已经成为年轻消费者生活的一个重要组成部分。大数据的分析可能会把许多以前看似不相关的变量联系起来，这种联系会为我们更好的洞察消费者提供线索和引领，也会为我们开发数理模型提供更多的变量和思路。
回顾历史，我们意识到第一次数据化（“大”数据）浪潮带给社会科学研究方式的影响和变化；思考现在，我们充分理解大数据（第二次数据化）浪潮带给我们社会科学研究者的困惑、迷茫和不解，伴随着震撼、惊喜和欢呼；展望未来，我们深信市场研究正处在量变通往质变的道路上。
崔大鹏, 目前担任总经理，技术公司副总经理。大正是一家在消费者生活洞察和市场策略方面，基于领先的数据模型和数据分析的市场研究公司。聚微合智是一家基于社会化媒体数据，依托前沿的信息技术和数据分析技术，为企业的品牌和营销工作提供服务的研究与咨询公司。
拥有丰富和深厚的专业背景，美国辛辛那提大学的营销学博士，统计学和经济学双硕士，和信息管理的学士。曾分别任职于美国和国内几家市场研究公司，拥有十几年的国内外市场研究和营销咨询实践经验。他的研究兴趣包括开发数理统计分析模型和数据挖掘，用以解决实际营销问题，其关于消费者行为研究的成果和机器学习算法营销应用研究的论文曾发表于国际顶尖的学术刊物和会议上。
-------------------------------------------------------
本文链接：
解读社会化商业的价值
本文经作者授权SocialBeta发布，转载请明确注明出处与原文链接。
关注SocialBeta微信，扫一扫或添加：hisocialbeta
你可能喜欢　|　You Might Also Like
clovey　|　 11:19
socase　|　 11:35
SocialBeta　|　 17:06
socase　|　 10:30
一品内容官　|　 16:13
共有 0 条评论
暂时木有评论大数据推荐会使人变蠢？ | 新知
数字从来不会自己说话。数据必须经过分析才能产生意义。数据必须要清理、加权、整理。很多时候，大数据被输入到算法中，产生可指导行动的测量数据。个性化给人们带来的最大担忧是，它让用户撤回到舒服的飞地，其结果是用户的视野变窄，偏见增强。
大数据推荐会使人变蠢？
文/詹姆斯o韦伯斯特
测量中的偏见
所有的媒介测量都具有偏见。这并不是说，它们为了达到某个不道德的目的而故意歪曲——虽然也存在这个可能。意思是说，它们永远无法提供一个完全客观的现实图像。在收集和整理数据的过程中，偏见是固有的。能被观测到的东西是无限的。记录这些东西的方法各不相同。而且，正如我们所见，有很多不同的方法可以将所有数据凝缩为可用的测量标准。在这个过程中，有些东西未被探索到，有些东西则牺牲在“剪辑室”。
主导这个过程的是人类。他们决定什么是有用的、可行的或可以营销的。这样的判断已经烙入到所有的测量中，并从此产生偏见。重要的是识别最常见的偏见形式，并了解它们是如何影响市场运行的。有三种偏见值得一提：行为偏见、个性化偏见和流行度偏见。
绝大多数数字媒体的测量手段是通过记录人们的行为建构的。从广播的最初岁月开始就是这样，直至今日未曾改变。第一个视听率测量机构决定通过记录听众的收听行为来测量广播接触。这并不是理解媒介使用的唯一方式——它也可以被定义为听众关注或参与，但是接触迅速成为业界共识。历史学家马克·巴尔内夫斯及其同事解释道：“出于买卖广告时段或买卖节目的目的，一种能显示收听某个节目和收听时间的测量标准具有某种简洁性，这对高竞争性环境中的议价十分重要。” 数字电视的现代测量技术与此并无二致。个人收视记录仪和机顶盒记录下人们所选择的内容或频道，并从这些选择中推断接触。
Web 2.0 机构对行为数据的依赖并没有减少。虽然有些机构从用户评论中获得见解，但是大多数被采集的信息都是作为行为数据被加以解释的。服务器追踪人们买了什么、访问了什么网站、索取了什么信息、下载了什么材料、链接到了什么网页、分享了什么东西。实际上，每一天的每一秒钟都有海量的行为数据被制造出来。它的优点是价格低廉、数量丰富，从而成为一种具有诱惑力的资源。但是，即便测量得精确，行为也很难被解释。
人们面临的最大诱惑是将选择当作偏好的替身。其实，经济学中有一个正式的假设，即，选择是“显示性偏好”的度量。在推荐机制中，这种思路十分常见。甚至这些机制的批评者似乎也忽略了二者的区别。“新一代的互联网过滤机制盯着你看起来喜欢的东西——你实际的所作所为，或者与你类似的人们所喜欢的东西，并试图做出推断。”但是，我们有理由怀疑，选择是不是先有偏好的直接反映。媒介使用并不总是我们个人偏好的良好体现。我们所属社交网络的特质、我们用来寻找内容的工具和日常生活的结构都影响了媒介使用。
因此，通过行为进行推断时必须要谨慎。观看一段视频意味着你喜欢它吗？亚马逊上的每次购买都应该被理解为向“像你一样的人”做出的无声推荐吗？链接到某个网页或分享某个链接代表的是赞许还是谴责？转发某条推特信息是对其创新性的判断，还是身份表达和“社交纽带”？点击“喜欢”按钮意味着你真正喜欢它，还是仅仅为了获取免费的东西？行为的意义并不总是直白明了。然而，当我们将它们简化为“人头数量”或推荐时，往往认为行为的意义就是这样简明。
个性化偏见
可选择的东西如此之多，可用于选择的时间如此之少。媒介测量的一项重要功能是为人们的选择提供向导。个性化推荐在一定程度上能够预见我们认为有用或有趣的东西。它意味着我们无须在搜索上浪费时间，无须考虑每个选项。获取提供这些推荐的技能，一直是在网络上取得成功的处方。然而，商业平台并非唯一具有个性化偏见的平台。接下来我将论证，测量手段让我们以个性化的方式接触数字媒体，这在一定程度上是由我们社交网络的本质属性造成的。
营利网站具有追求个性化的欲望，这并不难理解。这个被帕里泽称为“为相关性而进行的竞赛”，驱动着大多数硅谷企业。因为它们意识到创造忠诚客户的最好方法是，“提供真正对应每个人独特兴趣、欲望和需求的内容”。正如我们所看到的，这也正是协同过滤的存在理由。谷歌从 2009 年开始提供个性化搜索结果。Facebook 的图谱搜索提供了另一种个性化方法。根据《纽约时报》的说法，“在用户的 Facebook 好友中哪一个与用户最亲密，在搜索结果中用户最想看到谁的答案，这些都是由算法审定的”。
社交网络和亲密小组也在无意中造成了个性化偏见，几乎所有的社交网络都是同质化的。社交网络的成员倾向于拥有相似的背景、兴趣和性情。在这些网络之中，照顾到相关群体兴趣、规范和偏见的媒介更容易得到广泛传播。社交新闻网站，如红迪网（Reddit）或顶客（Digg），通过推导、综合和排名向人们推荐值得关注的东西，从而鼓励了这种选择性。
其实，社交网络呈现给我们的推荐，可能比我们想象的还要自动化。Facebook 通过一种名为“刀锋排名”（EdgeRank）的算法，为每个用户提供个性化的动态新闻。刀锋排名是 Facebook 的专利，但是与图谱搜索类似，它也是优先呈现来自与我们关系密切的人们的最新消息。换句话说，在所有的 Facebook 好友中，我们更可能听到像我们一样的人们的消息。在一定程度上，这种定制内容造成了社交媒体上普遍存在的个性化偏见。
个性化给人们带来的最大担忧是，它让用户撤回到舒服的飞地，其结果是用户的视野变窄，偏见增强。例如，个性化可能会鼓励保守主义者收看“红媒”，自由主义者收看“蓝媒”。帕里泽将这些飞地称作“过滤气泡”。他认为用户往往并没意识到过滤气泡的存在。
然而，我们很难确定这些来自朋友的推荐所产生的社会效应。区分社交传染效应与同质性效应，对我们来说是一项挑战。人们可能会看到同样的东西，做同样的事情，这不是因为推荐，而是因为他们彼此相同。然而，也有证据证明，朋友的督促能够促使人们去投票，从而影响难分伯仲的选举结果。而且，似乎来自熟人的推荐压倒了选择性接触的倾向。穆茨和杨猜测，自动化的“非人类”推荐，例如协同过滤——或许不如“人类”推荐更具潜在影响力。然而在当今世界，随着 Facebook 和推特使用算法滤出个人信息和推荐，人类推荐和非人类推荐之间的界限也变得日益模糊。
流行度偏见
几乎所有上述方法都产生一个推荐排序表。搜索引擎根据内向链接的数量和重要性进行网页筛选。社交网络和内容提供者将用户指向阅读最多的故事、观看最多的视频或者大多数90“像你一样的人们”所购买的、租赁的或喜爱的东西。用户信息机制经常使用的方法，都特别倚重流行度。《华尔街日报》的“数字先生”卡尔·比亚利克有一句妙语：“互联网促进了流行度竞赛的爆发。” [“Numbers Guy”是由卡尔·比亚利克创办并供稿的《华尔街日报》专栏，这个专栏是关于新闻所使用（特别是误用）的数字和统计的。
尽管在历史上，大众文化的批判者曾经质疑被当作质量指标的流行度，但是推荐机制基本上能够免于此类质疑。相反，用户和社会评论家都赞赏这些机制，认为它们体现了“群众的智慧”——意思是说众多普通决策者能够创造优于专家的集体判断。这个流行概念给那些自私机构和告诉人们什么最好的自认权威提供了诱人的修正。然而，即使接受这个假设，用户信息机制也往往不能满足做出优秀决定所需的前提条件。
根据詹姆斯·索罗维基（他是帮助这个概念流行开来的作者）的说法，当大量不同个体独立做出决定或预测时，智慧得以实现。将这些自主决定加在一起，通常可以产生一个明显优于专家意见的结果。不幸的是，大多数用户信息机制违反了这些规则，这一点连索罗维基自己也承认。
首先，推荐通常以相对较小的同质群体为基础。如我们所见，社交网络或亲密小组的成员是同质的。在大多数群组中，成员的数量是有限的。人类学家罗宾·邓巴认为，人类最多能够维持150多个有意义的人际关系，因此社交网络的规模是有限的。有些人找到证据证明社交媒体使用中存在天花板，另外一些社交网络分析者却认为，“邓巴数”太低了。不管怎样，社交网络，作为推荐实体，通常并不具备做出聪明判断所需的规模和多样性。协同过滤也不能纠正这个问题。最好的推荐机制横跨多个数据库。它们必须这样做，因为相对来说，只有少数人在进行推荐时最终具备价值。也就是说，过滤算法搜索并优先考虑与你“最亲密的人”或离你“最近的人”。这些人通常只占数据库的极小一部分。
其次，在上面提到的用户信息机制中，没有一个促进了最佳推荐所需的那种独立决策。搜索引擎为用户提供有关其他人所作所为的信息，有效引导接下来的决策，整合并报告某个网站的访问者选择了什么或者某个社交网络的成员推荐了什么，为追随者提供了强烈的社会期望信号。人类有随大流的倾向，见到他人在做什么，能够引发狂乱冲动行为。
例如，哥伦比亚大学的社会学家进行了一项基于互联网的大规模实验。在实验中，人们被允许从一些不知名乐队中选择一个，并下载它的音乐。在实验条件下，人们能够看到有关别人所下载内容的信息越多，他们越倾向于追随领导者。歌曲的质量相对来说并不重要。在不同的实验条件下，用户信息产生的结果都是“赢者通吃”。然而，你还是无法事先预知谁会成为赢者。
如果自主决策产生最佳结果，传染和从众似乎是“智慧自群众中来”（这个观点的持有者）最不喜欢的。正如预测专家纳特·西尔弗所警告的：“这是信息时代的另一个风险：我们分享如此多的信息，以至于我们的独立性被降低了。相反，我们寻找和我们一样思考的人们，
但是，这些以流行度为基础的排名比比皆是，所以，我们应该谨慎对待测量中的流行度偏见。这样的测量标准能够告诉我们什么在吸引注意力——同时也提升流行度，但是它们并非找到真正价值所在的无误向导。
透过大数据看世界
很多评论家和顾问早就指出，大数据的出现将促使我们革新一切，从制造到市场营销、到医药、到天气预测、到股票交易、到科学自身的每项实践。我曾间接提到服务器所产生的数据对媒介测量的影响，但是我们还是应该认真考虑，大数据是否从根本上改变了我们看待注意力市场的方式，是否在此过程中改变了市场的运行方式。
大数据这个词模糊得让人喜欢。对有些人来说，它是一切电子计算表中大到无法处理的数据；对另一些人来说，它只不过是一个需要超级计算机进行运算的数据集。它通常包括两个截然不同却又经常合在一起的话题：数据与分析。为了掌握大数据的贡献和局限，我们应该对二者分别对待。
大数据的拥护者们经常表示，越大一定越好。我曾指出，大多数媒介测量都有一个行为偏见，行为偏见让它们的解释存在问题。但是在克里斯·安德森（他曾长期担任《连线》杂志编辑）看来，日益增加的数据以某种方式消除了这个问题。“谁知道为什么人们为其所为、做其所做？重点是他们做了，而且我们能够追踪，并以前所未有的保真度测量他们的活动。有了足够的数据，数字自己就会说话。”然而，大多数知道数据包括什么、不包括什么的人们却得出截然不同的结论。微软研究院的研究员们将真实世界中大数据的不足进行了分类，从代表性问题到显而易见的错误。他们得出的结论是：“大数据为我们提供了海量数据，但这并不意味着方法问题不再重要。例如，对样本的理解，现在比以往任何时候都更重要。”
数字从来不会自己说话。数据必须经过分析才能产生意义。数据必须要清理、加权、整理。很多时候，大数据被输入到算法中，产生可指导行动的测量数据。正如克里斯·斯坦纳所指出的：“在华尔街和其他地方，所有因算法而实现的革命，只有一个核心的、执着的目标：预测——更精确地说，预测其他人会做什么。”
然而，预测人们会做什么，要什么或对什么满意，比物理世界的预测更难。想一想用大数据预测天气。预测并不能改变天气。预测一英寸的雨水并不能让此成真。假如真的下雨，你就可以对预测的精确度进行测量。你只需到雨水测量器前看一看就知道你预测的对不对。人类世界并不总是按照同样的规则运行。
对社交活动的预测会影响他们所预测的东西。如果谷歌预测某个网站会有价值并因为这个预测促进了网站流量，似乎就能够进一步证明这个推荐的正确性。如果亚马逊预测我们将会喜欢某本书，因为“像我们一样的人们”购买了该书，我们可能就会将该书加入到购物车，从而使销售增长。倘若不是这样，这个增长是不存在的。测量并没有与它们所要测量的现实相互分离，测量重塑了现实。
职业媒体人手中的测量可能也是这样的。例如，媒体都想在新人出名之前发现他们。《广告时代》如此描述这个挑战:“很多年以来，品牌一直在和 YouTube 明星合作——贾斯汀，谢伊·卡尔，米歇尔·潘等等，但是，如果你能够在明星成为大腕之前就发现他们，又会怎样呢？”为了做到这一点，代理机构要在 YouTube 上追踪 5 万个频道、2500 万个视频，从而预测谁处在成名的临界点，表现优秀的那些可以签下合约。以这种方式发现的人才可能无须干预便获得成功。但是，使用测量发现赢者的同时也能创造赢者。与天气不一样，社会预测能够改变结果。
在很多大数据支持者的眼中，预测物理世界与预测人类世界的区别似乎不再存在。在人类社会，由大数据驱动的算法有可能创造“自我应验的预言”。伟大的社会学家罗伯特·K·默顿解释道：“某个情况（预言或预测）的公共定义成为这个情况的组成部分，因此影响到事态的后续发展。这是人类事务特有的。自然界中并不存在。”自我应验的预言产生两个问题，一个是分析者的问题，另一个是我们其他人的问题。
算法的预测质量应该根据预测的准确性判断。但是，任何评估都取决于我们能否很好地测量我们所预测的东西。在大数据的世界里，比起其他事情，有些事情更容易知道。我们也许能判断出某种模式在多大程度上决定了电视节目的收视率，或者操控推销辞令如何影响了购买行为。但是，当谷歌预测我们会觉得某个网站有价值，或者奈飞预测我们会喜欢某部电影时，我们怎能知道这些预测真正找到了具有价值或令人喜爱的东西呢？我们可能发现这些推荐有价值，但是我们无法确定它们是否为最佳选择。将人们对某个建议的接受当作质量高的证据，或许只会让自我应验的预言继续存在。在人类世界中判断预测的质量，并不像看一眼雨水测量器那样简单。
自我应验预言的更大后果是，它们能够影响文化消费本身的性质。公共测量可能会与其所测量的世界“发生反应”，从而改变社会现实。两种偏见：个性化偏见和流行度偏见，可能都有这个能力（改变社会现实）。
个性化推荐将我们引向那些关心我们兴趣和偏见的媒体。通常，推荐者需要从我们过去的行为进行推断，从而猜测我们是谁、喜欢什么。伊莱·帕里泽将此称为“你循环”，并对其机制作出如下解释：“你点击一个链接，说明你喜欢其中某个东西，这意味着你接下来很有可能会看到与那个话题相关的文章，然后它进一步为你启动了那个话题。你陷入了‘你循环’，如果你的身份被误表达，就会产生一些奇怪的模式，就像扩音器中出现的回响。”有一种可能是，某些东西被启动，而其他东西未被启动，我们可能会培养起一种对所推荐东西的品位。正如我们所看到的，很多社会评论家担心个性化可能会使社会极化，但是如果这些机制迎合并创造偏好的话，其效果可能会更加显著。
然而，流行度偏见可能会缓解这种效果。它不是将我们撕裂，而是倾向于使公众注意力集中。流行度并非找到最高价值或最高质量的安全法则。然而，似乎显而易见的是，推荐流行的东西会驱动流量，并进一步提高流行度。将海量数据转化成简单的数人头活动，包括将此公布于众，会夸大最终的计数结果。
在这些倾向中，没有一个由于大数据的大而得到缓解。与所有媒介测量手段一样，新的测量手段也是人类创造的。正因为如此，它们也不能免于偏见和误用。但是，它们现在无处不在。这不是原来就有的，因此它们成为人们必须考虑的日益重要的力量。它们能够为机构和个人提供超级有用的工具。然而，它们并不是注意力市场上的中立者。媒介测量以强有力的方式进入注意力市场。这种进入方式并没有得到足够重视，往往也很难被普通用户识别出来。显然，人类世界会与数据所鼓励我们看到的十分相似。
编辑：NickyLee
这本书引人入胜并冷静地分析了变化中的媒体格局。新媒体将如何改变世界？我们有很多令人屏气敛息的描述，它们预言我们将处在乌托邦与大灾难的边缘。选择性接触、偏好形成、有限理性、使用与满足、节目差异化、病毒式传播，这本书巧妙地将这些理论与证据融合在一起，回答了一个既简单又让人头疼的问题：对于受众形成我们知道多少，这对观念市场来说意味着什么？
责任编辑：
声明：本文由入驻搜狐号的作者撰写，除搜狐官方账号外，观点仅代表作者本人，不代表搜狐立场。
今日搜狐热点}

我爱游戏网