大数据时代如何保护个人隐私个人隐私数据如何保护?

大数据时代下的隐私保护大数据时代下的隐私保护百度安全实验室百家号前言 本文介绍了学术界和工业界对于用户隐私保护的努力成果,其中主要讲到了k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness 和 ε-differential privacy(差分隐私),并对它们的优缺点进行了分析。数据 v.s. 隐私在大数据的时代,数据成为了科学研究的基石。我们在享受着推荐算法、语音识别、图像识别、无人车驾驶等智能的技术带来的便利的同时,数据在背后担任着驱动算法不断优化迭代的角色。在科学研究、产品开发、数据公开的过程中,算法需要收集、使用用户数据,在这过程中数据就不可避免的暴露在外。历史上就有很多公开的数据暴露了用户隐私的案例。美国在线(AOL)是一家美国互联网服务公司,也是美国最大的互联网提供商之一。在 2006 年8月,为了学术研究,AOL 公开了匿名的搜索记录,其中包括 65 万个用户的数据,总共 20M 条查询记录。在这些数据中,用户的姓名被替换成了一个个匿名的 ID,但是纽约时报通过这些搜索纪录,找到了 ID 匿名为4417749的用户在真实世界中对应的人。ID 4417749 的搜索记录里有关于“60岁的老年人”的问题、“Lilburn地方的风景”、还有“Arnold” 的搜索字样。通过上面几条数据,纽约时报发现 Lilburn 只有14个人姓Arnold,最后经过直接联系这14个人确认 ID 4417749 是一位62岁名字叫 Thelma Arnold的老奶奶。最后 AOL 紧急撤下数据,发表声明致歉,但是已经太晚了。因为隐私泄露事件,AOL遭到了起诉,最终赔偿受影响用户总额高达五百万美元。同样是 2006年,美国最大的影视公司之一 Netflix,举办了一个预测算法的比赛(Netflix Prize),比赛要求在公开数据上推测用户的电影评分 。Netflix 把数据中唯一识别用户的信息抹去,认为这样就能保证用户的隐私。但是在 2007 年来自The University of Texas at Austin 的两位研究人员表示通过关联 Netflix 公开的数据和 IMDb(互联网电影数据库)网站上公开的纪录就能够识别出匿名后用户的身份。三年后,在2010年,Netflix 最后因为隐私原因宣布停止这项比赛,并因此受到高额罚款,赔偿金额总计九百万美元。近几年各大公司均持续关注用户的隐私安全。例如苹果 在2016 年 6 月份的WWDC 大会上就提出了一项名为Differential Privacy 的差分隐私技术。苹果声称他能通过数据计算出用户群体的行为模式,但是却无法获得每个用户个体的数据。那么差分隐私技术又是怎么做的呢?在大数据时代,如何才能保证我们的隐私呢?要回答这个问题,我们首先要知道什么是隐私。什么是隐私?我们经常谈论到隐私泄漏、隐私保护,那么什么是隐私呢?举个例子,居住在海淀区五道口的小明经常在网上购买电子产品,那小明的姓名、购买偏好和居住地址算不算是隐私呢?如果某购物网站统计了用户的购物偏好并公开部分数据,公开的数据中显示北京海淀区五道口的用户更爱买电子产品,那么小明的隐私是否被泄漏了呢?要弄清楚隐私保护,我们先要讨论一下究竟什么是隐私。对于隐私这个词,科学研究上普遍接受的定义是“单个用户的某一些属性”,只要符合这一定义都可以被看做是隐私。我们在提“隐私”的时候,更加强调的是“单个用户”。那么,一群用户的某一些属性,可以认为不是隐私。我们拿刚才的例子来看,针对小明这个单个用户,“购买偏好”和“居住地址”就是隐私。如果公开的数据说住在五道口的小明爱买电子产品,那么这显然就是隐私泄漏了。但是如果数据中只包含一个区域的人的购买偏好,就没有泄露用户隐私。如果进一步讲,大家都知道小明住在海淀区五道口,那么是不是小明就爱买点此产品了呢?这种情况算不算事隐私泄漏呢?答案是不算,因为大家只是通过这个趋势推测,数据并不显示小明一定爱买电子产品。所以,从隐私保护的角度来说,隐私是针对单个用户的概念,公开群体用户的信息不算是隐私泄漏,但是如果能从数据中能准确推测出个体的信息,那么就算是隐私泄漏。隐私保护的方法
从信息时代开始,关于隐私保护的研究就开始了。随着数据不断地增长,人们对隐私越来越重视。我们在讨论隐私保护的时候包括两种情况。第一种是公司为了学术研究和数据交流开放用户数据,学术机构或者个人可以向数据库发起查询请求,公司返回对应的数据时需要保证用户的隐私。第二种情况是公司作为服务提供商,为了提高服务质量,主动收集用户的数据,这些在客户端上收集的数据也需要保证隐私性。学术界提出了多种保护隐私的方法和测量隐私是否泄露的工具,例如k-anonymity(k-匿名化)、l-diversity(l-多样化)、t-closeness、 ε-differentialprivacy(差分隐私)、同态加密(homomorphic encryption)、零知识证明(zero-knowledge proof)等等。今天主要介绍k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness 和 ε-differential privacy(差分隐私)。这些方法先从直观的角度去衡量一个公开数据的隐私性,再到使用密码学、统计学等工具保证数据的隐私性。下面我们一一解读这四种隐私保护的方法:k-anonymity(k-匿名化)k-anonymity 是在 1998 年由 Latanya Sweeney 和 Pierangela Samarati 提出的一种数据匿名化方法。我们先看一下下面的这个表格:我们把要表格中的公开属性分为以下三类:-
Key attributes: 一般是个体的唯一标示,比如说姓名、地址、电话等等,这些内容需要在公开数据的时候删掉。-
Quasi-identifier: 类似邮编、年龄、生日、性别等不是唯一的,但是能帮助研究人员关联相关数据的标示。-
Sensitive attributes: 敏感数据,比如说购买偏好、薪水等等,这些数据是研究人员最关心的,所以一般都直接公开。简单来说,k-anonymity 的目的是保证公开的数据中包含的个人信息至少 k-1 条不能通过其他个人信息确定出来。也就是公开数据中的任意 quasi-identifier信息,相同的组合都需要出现至少 k 次。举个例子,假设一个公开的数据进行了 2-anonymity 保护。如果攻击者想确认一个人(小明)的敏感信息(购买偏好),通过查询他的年龄、邮编和性别,攻击者会发现数据里至少有两个人是有相同的年龄、邮编和性别。这样攻击者就没办法区分这两条数据到底哪个是小明了,从而也就保证了小明的隐私不会被泄露。下面这个表就是 2-anonymization 过的信息:k-anonymity的方法主要有两种,一种是删除对应的数据列,用星号(*)代替。另外一种方法是用概括的方法使之无法区分,比如把年龄这个数字概括成一个年龄段。对于邮编这样的数据,如果删除所有邮编,研究人员会失去很多有意义的信息,所以可以选择删除最后一位数字。从这个表中,即使我们知道小明是男性、24岁、邮编是100083,却仍然无法知道小明的购买偏好。而研究人员依然可以根据这些数据统计出一些有意义的结果,这样既兼顾了个人的隐私,又能为研究提供有效的数据。k-anonymity能保证以下三点:1.
攻击者无法知道某个人是否在公开的数据中2.
给定一个人,攻击者无法确认他是否有某项敏感属性3.
攻击者无法确认某条数据对应的是哪个人(这条假设攻击者除了 quasi-identifier 信息之外对其他数据一无所知,举个例子,如果所有用户的偏好都是购买电子产品,那么 k-anonymity 也无法保证隐私没有泄露)攻击方法未排序匹配攻击 (unsorted matching attack) :当公开的数据记录和原始记录的顺序一样的时候,攻击者可以猜出匿名化的记录是属于谁。例如如果攻击者知道在数据中小明是排在小白前面,那么他就可以确认,小明的购买偏好是电子产品,小白是家用电器。解决方法也很简单,在公开数据之前先打乱原始数据的顺序就可以避免这类的攻击。补充数据攻击 (complementary release attack) :假如公开的数据有多种类型,如果它们的 k-anonymity 方法不同,那么攻击者可以通过关联多种数据推测用户信息。除此之外,如果敏感属性在同一类 quasi-identifiers 中缺乏多样性,或者攻击者有其它的背景知识,k-anonymity 也无法避免隐私泄露。我们知道李雷的信息,表中有两条对应的数据,但是他们的购买偏好都是电子产品。因为这个敏感属性缺乏多样性,所以尽管是 2-anonimity 匿名化的数据,我们依然能够获得李雷的敏感信息。如果我们知道小紫的信息,并且知道她不喜欢购买护肤品,那么从表中,我们仍可以确认小紫的购买偏好是厨具。l-diversity(l-多样化)通过上面的例子,我们引出了多样化的概念。简单来说,在公开的数据中,对于那些quasi-identifier 相同的数据中,敏感属性必须具有多样性,这样才能保证用户的隐私不能通过背景知识等方法推测出来。l-diversity 保证了相同类型数据中至少有 l 种内容不同的敏感属性。例如在上图的例子中,有 10 条相同的类型的数据,其中 8 条的购买偏好是电子产品,其他两条分别是图书和家用电器。那么在这个例子中,公开的数据就满足 3-diversity 的属性。除了以上介绍的简单 l-diversity 的定义,还有其他版本的 l-diversity,引入了其他统计方法。比如说:基于概率的l-diversity (probabilistic l-diversity): 在一个类型中出现频率最高的值的概率不大于 1/l。基于墒的l-diversity (entropy l-diversity): 在一个类型中敏感数据分布的墒至少是 log(l)。递归 (c,l)-diversity (recursive (c, l)-diversity): 简单来说就是保证最经常出现的值的出现频率不要太高。l-diversity 也有其局限性:敏感属性的性质决定即使保证了一定概率的 diversity 也很容易泄露隐私。例如,医院公开的艾滋病数据中,敏感属性是“艾滋病阳性”(出现概率是 1%)和“艾滋病阴性”(出现概率是 99%),这两种值的敏感性不同,造成的结果也不同。有些情况下 l-diversity 是没有意义的:比如说艾滋病数据的例子中仅含有两种不同的值,保证2-diversity 也是没有意义的。l-diversity 很难达成:例如,我们想在 10000 条数据中保证 2-diversity,那么可能最多需要 1 = 100 个相同的类型。这时可能通过之前介绍的 k-anonymity的方法很难达到。偏斜性攻击 (Skewness Attack):假如我们要保证在同一类型的数据中出现“艾滋病阳性”和出现“艾滋病阴性”的概率是相同的,我们虽然保证了 diversity,但是我们泄露隐私的可能性会变大。因为l-diversity 并没有考虑敏感属性的总体的分布。l-diversity 没有考虑敏感属性的语义,比如说下面的例子,我们通过李雷的信息从公开数据中关联到了两条信息,通过这两条信息我们能得出两个结论。第一,李雷的工资相对较低;第二,李雷喜欢买电子电器相关的产品。t-closeness上面最后一个问题就引出了 t-closeness 的概念,t-closeness 是为了保证在相同的quasi-identifier类型组中,敏感信息的分布情况与整个数据的敏感信息分布情况接近(close),不超过阈值 t。如果刚才的那个数据保证了 t-closeness 属性,那么通过李雷的信息查询出来的结果中,工资的分布就和整体的分布类似,进而很难推断出李雷工资的高低。最后,如果保证了 k-anonymity,l-diversity 和 t-closeness,隐私就不会泄露了么?答案并不是这样,我们看下面的例子:在这个例子中,我们保证了 2- anonymity , 2-diversity , t-closeness(分布近似),工资和购买偏好是敏感属性。攻击者通过李雷的个人信息找到了四条数据,同时知道李雷有很多书,这样就能很容易在四条数据中找到李雷的那一条,从而造成隐私泄露。可能有些读者会有疑问,通过背景知识攻击 k-anonymity 的前提是不是假设了解 quasi-identifier ?并不是这样,针对敏感属性的背景攻击对 k-anonymity 也适用,所以无论经过哪些属性保证,隐私泄露还是很难避免。差分隐私(differential privacy)除了之前我们介绍的针对 k-anonymity, l-diversity,t-closeness 三种隐私保护方法的攻击之外,还有一种叫做差分攻击 ( differential attack )。举个例子,购物公司发布了购物偏好的数据,说我们有 100 个人的购物偏好数据,其中有 10 个人偏爱购买汽车用品,其他 90 个偏爱购买电子产品。如果攻击者知道其中 99 个人是偏爱汽车用品还是电子产品,就可以知道第 100 个人的购物偏好。这样通过比较公开数据和既有的知识推测出个人隐私,就叫做差分攻击。在 2009 年,微软研究院的Cynthia Dwork 提出差分隐私的概念,差分隐私就是为了防止差分攻击,也就是说尽管攻击者知道发布的 100 个人的个人以信息和其中 99 个人的信息,他也没办法通过比对这两个信息获得第 100 个人的信息。简单来说,差分隐私就是用一种方法使得查询 100 个信息和查询其中 99 个的信息得到的结果是相对一致的,那么攻击者就无法通过比较(差分)数据的不同找出第100 个人的信息。这种方法就是加入随机性,如果查询 100 个记录和 99 个记录,输出同样的值的概率是一样的,攻击者就无法进行差分攻击。进一步说,对于差别只有一条记录的两个数据集 D 和 D' (neighboring datasets),查询他们获得结果相同的概率非常接近。注意,这里并不能保证概率相同,如果一样的话,数据就需要完全的随机化,那样公开数据也就没有意义。所以,我们需要尽可能接近,保证在隐私和可用性之间找到一个平衡。ε-差分隐私 (ε-differential privacy, ε-DP) 可以用下面的定义来表示:其中 M 是在 D 上做任意查询操作,对查询后的结果加入一定的随机性,也就是给数据加噪音,两个 datasets 加上同一随机噪音之后查询结果为 C 的概率比小于一个特定的数 。这样就能保证用户隐私泄露的概率有一个数学的上界,相比传统的 k-anonymity,差分隐私使隐私保护的模型更加清晰。我们用一个例子解释差分隐私的定义:上图中 D1 和D2 是两个neighboring datasets,他们只有一条记录不一致,在攻击者查询“20-30岁之间有多少人偏好购买电子产品”的时候,对于这两个数据库得到的查询结果是 100 的概率分别是 99% 和 98%,他们的比值小于某个数。如果对于任意的查询,都能满足这样的条件,我们就可以说这种随机方法是满足ε-差分隐私的。因为 D1 和 D2 是可以互换的,所以更加严格的讲,他们的比值也要大于。无论查询是什么,两个相邻的数据库返回的结果总是近似的。要达到数据的差分隐私有四种方法:1.
输出结果变换2.
输入查询变换3.
中间值变换4.
抽样和聚合数据本文接下来主要介绍输出结果变换的方法,这种方法主要针对查询结果是数值或者数值向量的情况,通过加入噪声使输出结果达到 ε-DP。输出结果变换:加入噪声在差分隐私中,防止隐私泄露的重要因素是在查询结果中加噪音,对于数值的查询结果,一种常见的方法就是对结果进行数值变换。要解释如何加入噪音,我们先看一下下面的这个例子:假如某公司公开了数据,并且对外提供了查询数据的接口 f(x),针对不同的查询 x,服务器都会输出一个查询结果 f(x) + 噪声,加入噪声就是为了保证 ε-差分隐私。那么如何选择噪声呢?差分隐私方法中,作者巧妙的利用了拉普拉斯分布的特性,找到了合适的噪声方法。针对数值或向量的查询输出,M(x) = f(x) + 噪声。我们能得出以下结论:其中 Lap 是拉普拉斯分布,GS 表示 global sensitivity:详细的证明可以参考差分隐私的相关文章。我们有了这个结论,想要对某个查询接口 f(x) 保证 ε-DP 的话,只需要在查询结果上加入 Lap(GS/e) 的噪声就可以了。拉普拉斯分布和其概率密度函数如下:(ε,δ)-differential privacy, (ε, δ)-DPε-DP 是一种“严格”的隐私保护保证,当在数据库中添加和删除一条数据时候,保证所有查询的输出都类似。但是(ε, δ)-DP 在 ε-DP 的保证中允许了一定概率的错误发生,比如说,用户在 (ε, δ)-DP 的保护下会有 δ 概率的隐私泄露。基于这些的概念,差分隐私在机器学习算法中也能够使用,常见的算法,比如说 PCA、logistic regression、SVM都有对应的差分隐私化算法。差分隐私在数据的实用性和隐私性之间达到了平衡,使用者可以通过设定自己的“隐私预算”(privacy budget)来调整数据的实用性和隐私性。但是差分隐私也不是万能的,其中加入噪声的很多算法需要在大量的数据集上才实用。除此之外,什么才是“隐私预算”的合理设定也是一个问题。这些都是差分隐私面临的问题和挑战。并且由于差分隐私对于“背景知识”的要求过于强,所以需要在结果中加入大量随机化,导致数据的可用性(utility)急剧下降。但是差分隐私作为一个非常优雅的数学工具,是隐私保护的研究在未来的一个发展方向。差分隐私用严格的数学证明告诉人们一个匿名化的公开数据究竟能保护用户多少的隐私。k-匿名化与 ε-差分隐私的关系我们前面分别单独介绍了 k-匿名化和 ε-差分隐私,k-匿名化相对比较容易理解和实践,差分隐私更像是从理论上证明了隐私保护的边界。虽然方法的分析角度完全不同,但是它们之间却有着紧密的联系。普渡大学的Ninghui Li教授在 Provably PrivateData Anonymization: Or, k-Anonymity Meets Differential Privacy 文章中详细分析了 k-匿名化和 ε-差分隐私之间的关系。文章证明了在使用 k-匿名化“得当”的情况下,可以满足一定条件的 (ε, δ)-differentialprivacy。同时也提出了一种 k-anonymity 的变形:β-Sampling+ Data-independent _Generalization + k-Suppression (k, β)-SDGS ,通过变形后的 k-anonymity 就可以使之满足差分隐私。通过使用差分隐私这种工具,我们就能精确的衡量前人提出的 k-anonymity,在理论研究上具有重要意义。实际案例在实际应用中使用差分隐私时需要考虑的问题还有很多,我们在介绍差分隐私的时候假设所有的查询操作都由可信的数据库处理,数据库里存储着用户的原始数据。那么如果数据库被攻击了,包含用户隐私的原始数据就泄露了。如果不收集用户的原始数据,在客户端上先做差分隐私,再上传给服务器,这个问题就解决了。最近Google 率先使用RAPPOR系统在 Chrome 浏览器上通过这种方法收集用户的使用情况数据。RAPPOR 基于“随机应答”(randomized response)的方法保护用户的原始数据不被泄露,随机应答的流程如下:1.
当用户需要上报个人数据的时候,首先“抛硬币”决定是否上报真实数据。如果是正面,则上报真实数据。如果不是,就上报一个随机的数据,再“抛一次硬币”决定随机数据的内容。2.
服务器收到所有的数据后,因为知道“抛硬币”是正面的概率,服务器就能够判断返回的数据是正确的概率。这种“随机应答”的方法在理论上也被证明是服从ε-差分隐私的。对于用户来说,隐私数据在上报给服务器之前就已经加了噪声,从而具有一定保证。对于公司来说,也能收集到有效的数据。RAPPOR 使用“随机应答”的方法克服了之前只能回答简单查询语句的限制,现在可以上报包含字符串这类更加复杂的回答。RAPPOR 在上报字符串信息的时候首先使用“布隆过滤器”(bloom filter)算法把字符串哈希到一个数组中,然后再加入噪声传给服务器。布隆过滤器不需要存储元素本身,并可以用于检索一个元素是否在一个集合中。通过使用这种方法,就可以对字符串数据添加噪音,保护用户的隐私。苹果在 2016 年的世界开发者大会(WWDC)上也宣布使用差分隐私的方法收集用户数据。虽然苹果没有透露具体的细节,我们从官方的描述中也可以推测出苹果也使用了在客户端上做匿名化再传输到服务器的方法。Differentialprivacy is a research topic in the areas of statistics and data analytics thatuses hashing, subsampling and noiseinjection to enable...crowdsourced learning while keeping the data ofindividual users completely private. Apple has been doing some super-importantwork in this area to enable differential privacy to be deployed at scale.我们刚才介绍的 Google 和 Apple 的模型都是先在本地做差分隐私,然后再上报给服务器,我们把这种方法叫做本地模式(local mode)。这种差分隐私的做法在上报数据可以相互关联的情况下还是存在隐私泄漏。Google的RAPPOR虽然解决了对同一个数据的多次上报的隐私泄露问题,但并没有解决多个相关数据上报后产生的隐私泄露问题。对于这一问题,Apple也没有给出详细的解释。除了Google 和苹果在内部产品中使用差分隐私方法,哈佛大学公开了一个名为PSI (Ψ) 的项目,提供了一个便捷的差分隐私工具。使用者通过上传数据,调整差分隐私的参数,就可以获得满足差分隐私的数据集。总结本文介绍了学术界和工业界对于用户隐私保护的努力成果。我们首先介绍了 k-anonymity,即通过变换隐私数据,保证相同特性的用户在数据库出现的次数至少是 k 次。然后,为了防止攻击者通过隐私数据的背景知识推测用户身份,提出使用 l-diversity,保证相同特征的用户中,隐私数据相同的个数大于 l。除此之外,我们也讨论了 t-closeness。最后我们详细介绍了差分隐私的概念,以及实际应用中应如何使用差分隐私。从最开始的 k-anonymity, l-diversity , t-closeness 到现在的 ε-差分隐私,都是为了既保证用户的个人隐私,也能对实际应用和研究提供有价值的数据。在大数据的时代中,希望各公司在利用数据提供更好的服务的同时,能保护好用户的个人隐私。这是法律的要求,也是安全行业的追求。我们相信隐私保护技术会越来越受到重视,并从学术理论迅速投入工业界实战应用。参考文章-
https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf-
https://www.cs.cmu.edu/~yuxiangw/docs/Differential%20Privacy.pdf-
https://blog.cryptographyengineering.com//what-is-differential-privacy/-
https://www.chromium.org/developers/design-documents/rappor-
http://static.googleusercontent.com/media/research.google.com/en/us/pubs/archive/42852.pdf-
Provably Private Data Anonymization: Or,k-Anonymity Meets Differential Privacy本文由百家号作者上传并发布,百家号仅提供信息发布平台。文章仅代表作者个人观点,不代表百度立场。未经作者许可,不得转载。百度安全实验室百家号最近更新:简介:领先
战斗作者最新文章相关文章大风号出品
大数据时代如何保护我们的隐私,你应该做到这些!
我之前的文章中曾谈论过大数据时代,我们个人的隐私很容易被互联网企业获得,以从事商业利益,出卖个人隐私往小处讲,我们每天都会收到很多信息的轰炸,烦不胜烦,往大处说,如果被不法人员利用,会造成很大的损失,甚至影响大总统的选举和是否退欧这些决定个人生活的大事件,这就是不久前爆出来的脸书“泄露门”所造成的事实。互联网时代应该如何保护自己的隐私呢?我谈谈自己的一些建议。首先还是需要对隐私问题有一个正确的判断,为什么隐私泄露能够危害我们的安全呢?可以从三个方面谈起:独立自由的需要,人身安全的需要,崇尚个性的需要。我们的隐私又是如何被泄露出去呢?1、用户使用不当:这是最常见又常被忽略的隐私泄露方式,用户在社交平台上输入真实的电话号码、电子邮箱、家庭地址、生日等信息,设置了完全公开或者对好友公开,信息不知不觉地被其他用户获取了。2、第三方不当使用:这是是人们关注比较多的一种隐私泄露方式。第三方将从授权平台获得的用户隐私信息,使用到了规定的范围之外。3、平台方泄露:我们经常会听到这样的报道:某某网站用户数据库被破解,数百万用户数据被黑客窃取。由于技术漏洞或者业务逻辑设计不够严谨,黑客攻入了网络系统,导致用户信息泄露。。平台方泄露的另一个来源是工作人员,工作人员尤其是客服人员,为了提供更友好的客户服务体验,通常有权查看用户的资料,如果知情员工将这些信息应用到客户服务之外,技术和管理上都难以有效防范。这里我们需要思考一下,为什么互联网平台需要绑定身份信息呢?在中国的实名制认证中,手机号是底层基础,其与身份证绑定,这时候我们应该学会如何通过手机来创建马甲,也就是第二个手机号,这个第二手机,所有社交网络都可以基于非实名手机卡注册、匿名。另外你还必须做到:关闭所有云服务;绝不要上传原图,很多社交网络可以分析元数据;维修时一定要盯着师傅,防止被做手脚;格式化没用,数据还是会被恢复,手机废弃就砸烂;出门停止WiFi /蓝牙。这里就要意识到我们使用的社交平台不是中立的,很多人会存在一个误区,觉得社交平台是自己在使用,在社交网络发展的早期,人们对于平台中立有一种特别的偏好:网络应该给人尽可能多的自由,这是隐私保护本身的意义所在,不过,随着社交网络规模日渐扩大,用户规模达到十亿、数十亿时,一些不当应用会产生非常恶劣的社会后果,就像最近Facebook遭遇的那样,按道理,Facebook也可以将平台中立作为理由来推脱自己的责任,就像他们之前追求的那样,但对于造成的后果而言,这种解释没有人愿意采信。说了这么多,最主要的就是平时要多个心眼,互联网世界险象环生,稍微不留意就可能被套路到。
本文来自大风号,仅代表大风号自媒体观点。
用微信扫描二维码
分享至好友
用微信扫描二维码
分享至朋友圈
凤凰争鸣微信号
来点暖心的!扫这里
纯真实验室大数据时代,谁来保护我们的隐私
大数据时代,谁来保护我们的隐私
 来源: 
来源:作者:责任编辑:白璐
  在数据安全与隐私保护中,不存在毕其功于一役的技术与手段。图片来源:百度图片
  即使有不断加强的研究和新技术手段,在技术层面上也很难根本解决数据泄露、侵犯隐私的问题。
  ■记者 王佳雯
  “这是我的错误,我很抱歉!”脸书(Facebook)创始人兼CEO扎克伯格道歉了。美国当地时间4月10日,自3月份脸书卷入用户数据泄露丑闻,甚至被指所泄露的数据影响了美国大选之后,扎克伯格现身美国国会参议院的听证会,在44位参议员5小时的拷问中,面对媒体的长枪短炮不断道歉。
  认错,这是扎克伯格此次听证会证词中最重要的关键词。虽然这并不能真正挽回事件已经造成的影响,但从市场反馈来看,扎克伯格独自面对参议员质询的形象,还是赢回了不少信任——脸书股价在当日大涨4.5%,为该公司挽回了200多亿美元市值。
  错的不只是“脸书”
  公众需要扎克伯格道歉。特别是当公众得知,泄露的用户数据波及范围从5000万人增加到8700万人并有可能影响了重大政治事件后,人们对这家意图联通世界的互联网公司信心扫地。脸书股价短期内最大跌幅达13.52%,公司750亿美元市值随之蒸发。
  事件发酵至今,在对脸书一边倒的抨击中,也不时有微弱的声音阐述不同意见。有社交媒体就曝出,一位硅谷互联网公司做广告推荐算法的工程师就认为“脸书没有错”。
  回顾数据泄露过程,事件起源于一款风靡美国的人格测试第三方应用。“经过授权后,用户自愿参加问卷调查,第三方就能获得你的信息,事实上,整个过程是用户同意的。”上海交通大学计算机科学与工程系教授朱浩瑾分析称。
  这款依托于性格测试的游戏,具备借助社交网络信息分析用户行为模式和倾向的能力,它不仅可以通过从用户在脸书上的点赞信息推测用户教育情况、行为模式、政治倾向,甚至能够推测用户儿童时期是否受过心理创伤。
  一家名为全球科学研究(GSR)的公司利用上述游戏的机理,开始收集脸书用户数据,受访者需要开放自己脸书账号以登录该应用,并可以获得约5美金的报酬。
  30多万美国民众参与了测试,但由于该应用同样可以收集脸书账号好友的点赞记录和个人信息,最终5000万用户受影响,而脸书经调查发现,实际受影响用户达8700万。这些数据最终被转卖给了被指影响美国大选等政治活动的剑桥分析公司(Cambridge Analytical)。
  “这次数据泄露事件就是由于GSR对数据进行了非法售卖而导致的。根据脸书的数据使用政策,第三方应用所收集到的用户好友数据,只能被应用于提升用户体验,不允许被用于进行售卖或广告投放。”浙江大学网络空间安全研究中心主任任奎告诉《中国科学报》记者。
  在上述用户数据收集并最终泄露的过程中,脸书 “没有对第三方程序给用户带来的风险及时监督、监管”,但同样应当受到谴责的还有导致用户数据被用于不道德目的的GSR公司。
  数据“更懂你”
  无独有偶,脸书公司所遭遇的信任危机,国内的互联网公司同样也在经历。从对携程利用大数据杀熟的诟病,到今日头条虚假广告风波,拥有用户数据的互联网公司因技术壁垒,在对数据的利用和保护中,相较于普通公众都拥有绝对优势。
  脸书事件发生后,中科院心理所心理与行为科学大数据研究中心赵楠与朱廷劭也曾在中科院心理所公众平台对事件做出解读并直指,“我们在社交网络上的一举一动,都是我们性格特点与内心状态的某种反映。”
  依据其研究,只要用户的社交网络日常使用积累到一定数量,科学家就可以运用人工智能技术,利用社交网络信息算出用户的性格特点。
  尼尔·波兹曼曾在《娱乐至死》一书中指出,“毁掉我们的不是我们所憎恨的东西,而恰恰是我们所热爱的东西。”可以说大数据时代所暴露出来的一系列问题,不仅印证了波兹曼的话,也令他的担忧具有了更广泛的意义。
  “现在人工智能、计算机都在为用户提供便利,但这一定要牺牲一部分隐私的,把隐私过渡给计算机,让它知道你的信息,它才能根据信息提供服务。”朱浩瑾说。
  事实上,引发脸书此次问题的用户画像技术,在国内互联网公司同样也得到广泛应用。“很多公司都在用隐私数据做定向推广,这和将用户数据转卖给第三方或者用于不道德目的是两回事。”朱浩瑾说。
  朱浩瑾解释称,企业要把利益最大化,在对用户画像基础上做广告投放、产品推广,站在算法的角度上无可厚非。只不过,即使是出于合理商业目的,正确利用算法不断精确用户画像,隐患也已初露征兆。专家担忧,过度追求精确的用户画像,正不断增加在用户的隐私在无形中受到侵害的风险。
  “隐私的终结”待何时?
  2015年,《科学》杂志曾发表专刊探讨“隐私的终结”。至今3年过去,追求互联互通的互联网技术,越来越多地开始经受是否侵犯隐私、如何合理利用用户数据的拷问。学界与企业的讨论、公众的质疑与担忧,未能推动衍生出可以保护用户隐私的根本性举措。
  “隐私是个很复杂的事情,不同的场合、不同的人,对于隐私的认识都不太一样。”朱浩瑾说。尽管如此,以国内为例,2017年正式实施的《网络安全法》事实上已经推动了一部分个人属性信息的保护,比如“位置信息”。只是,目前来看,这样的法律约束犹显不足。
  现在用户的数据一旦有了“一度公开,二度公开就很难避免”,任奎解释说,所谓二度人脉是指好友的好友、同学的好友等间接人脉关系,目前这样的人脉关系已经成为脸书等平台帮助用户扩大人际关系网的热门手段。
  但在脸书的数据泄露案例中,正是这样的二度公开信息,让没有同意参与数据搜集的用户信息也无辜被泄露、利用。这无疑会带来巨大的隐私隐患。
  同时学者们也关注到,互联网公司收集到的用户数据存在“从一个企业内部走向另一个企业”的情况。于是才会出现,当用户在一个互联网平台搜索某些信息,在另一个平台便会出现他所搜索信息的相关产品推广。
  “这样的大数据应用是有价值的。”朱浩瑾说,但随着企业的用户画像越来越精确,企业间的数据交流是否会涉及到用户隐私问题也备受学界关注。专家提醒,在数据安全与隐私保护中,不存在毕其功于一役的技术与手段,但可以肯定的是,政府的监督、企业的自律、科研人员的探索、公众的自我保护每个环节都必不可少。
  从技术层面,国外的研究人员研究了差分隐私技术,可以既保护个体隐私,又允许相关企业、机构从整体上做数据分析。目前,苹果、谷歌等公司已经开始使用,而国内互联网企业也对相关技术十分关注。
  “这不是某一家互联网公司存在的问题,要解决这个问题需要多方面的努力。一方面用户保护隐私的意识不断提高;另一方面,对于每种服务相关信息的具体使用也需要更好的监管。”任奎最后强调。
  专家坦言,即使有不断加强的研究和新技术手段,从技术层面上很难从根本上解决数据泄露、侵犯隐私的问题。面对不断发酵的用户数据滥用问题,更重要的是,通过行之有效的监管手段,为互联网企业在追逐经济效益的诉求时套上法律与监管的缰绳,在寻求经济效益与社会效益间、在为公众提供便利与保护公众隐私间找到微妙的平衡。[责任编辑:白璐]
光明网版权所有}

我要回帖

更多关于 大数据时代是什么意思 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信