文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

15.4 隐私保护和数据安全

发布于 2024-08-17 00:01:36 字数 4853 浏览 0 评论 0 收藏 0

广告是一个典型的个性化系统，它需要大量使用用户的行为数据进行受众定向，同时，在广告市场中还存在着数据交易的产品。无论是受众定向还是数据交易，都需要谨慎地考虑对行为数据的使用是否会泄露用户的隐私；同时也要考虑拥有数据的利益方，特别是广告主，是否在广告市场中被平台或竞争对手获得和利用了自己的关键商业数据。

15.4.1 隐私保护问题

隐私问题讨论的是用户个人信息的安全性，不过对这个问题，市场上存在着一定的认识误区。实际上，隐私保护除了关心那些成批的用户资料泄露意外，更大的挑战是针对熟人的隐私窥探，即窥探者在了解被窥探者一些背景信息的基础上，即用这些背景信息进一步试图获取其更多的隐私信息。后面一种挑战由于可能是人工与机器相结合，而且对成本往往不敏感，给隐私带来的风险也最大。一个最生动的例子，可以参见“清华学生用自拍照推理出王珞丹住址”（http://news.cntv.cn/ent/20110819/105071.shtml）这篇报道，在这个例子里，一名清华学生通过分析王珞丹的微博发帖和照片，准确地得到了其住址这一隐私信息。下面我们来具体看一下隐私保护的问题和原则。

1.隐私保护基本原则

隐私保护在互联网个性化服务发展的很早阶段就得到了大家的重视，欧盟的 A29委员会也对此问题做过深入的研究和规范。目前，工业界有以下一些共识性的隐私保护原则。

（1）要严格避免使用个人可辨识信息（Personal Identifiable Information，PII）。PII 是最为重要的隐私信息，它指的是那些被获取后可以被方便地定位到具体人的信息，例如身份证号、电话号码、电子邮件地址、家庭住址等。这些信息一旦被恶意获取，会给当事人带来非常大的不便和潜在风险，因此需要无条件地严格保护。需要说明，广告系统中经常使用的用户标识，如cookie、IMEI等，由于不具有方便地辨识人的作用，因此不属于PII。

（2）用户有权要求系统停止跟踪和使用自己的行为数据。如图15-8所示，当向用户提供行为定向广告时，广告提供商应该给出明确的提示，如图中的广告创意右上角的“AdChoices”。如果用户对自己的行为被使用感到不满，可以通过此入口得到更多的详细说明，并且可以通过说明页面上的“Opt Out”操作通知系统停止跟踪和使用自己的行为数据。系统得到通知后，必须停止记录该用户的行为信息，也不再向其投放行为定向广告。这样的入口给了用户决定是否接受个性化广告的权利，对特定情形下的隐私保护非常重要。

图15-8 Ad Choices示例

（3）不应长期保留和使用用户行为数据。即使用户同意接受行为定向广告，广告平台在数据的使用和存储上也应该有所节制，长期保留用户行为对受众定向价值有限，同时又加大了数据泄露的风险。因此应该只保存一段时期以内的行为数据，过期的数据如果并非与业务直接相关，物理上不应再存储。

（4）工程上还需要特别注意权限的严格分配和最小数据访问的原则。工程师在调试程序时，最好是使用采样过的、关键信息被匿名化处理过的数据子集，而在生产系统中通过特别的密钥访问原始数据全集。而不需要开发数据处理程序的人，包括管理层，也不应当有数据访问的权限。

上面的这些原则相当基本，也非常重要，是广告系统、推荐系统在用户行为数据使用中首先要遵循的。不过，这些原则并不能解决一些深层次的数据隐私泄露问题，对此我们还需要更加深入地认识与并给出对策。

2.Quasi-Identifier 与 K-Anonymity

PII是可以辨识个人身份的隐私信息，那么是不是非 PII的信息就无法辨识身份了呢？举个例子，假设有这样一条用户信息：“姓名：XXX；手机号：XXX；年龄：36；工作地点：上海市携程大厦；性别：男；职位：测试工程师；爱好：羽毛球；月薪：15000元”。其中的“姓名”、“手机号”等 PII已经被隐藏。不过，如果此用户的一个朋友看到这条记录，根据“年龄、工作地点、性别、职位、爱好”这些非PII的组合，还是很容易得知是谁的信息，从而也就得到了“月薪”这一隐私信息。

在上面的例子里，“年龄、工作地点、性别、职位、爱好”这组信息虽然单独看来都无法确定一个人，但组合在一起有可能让熟人确定出对应的人，这样的信息称为“Quasi-Identifier”。由于有这样的Quasi-Identifier的存在，即使没有提供PII，仍然存在比较高的隐私泄露风险，这一点希望引起大家的注意。

有没有什么办法能够降低这一挑战带来的风险呢？简单的思路是将 Quasi-Identifier 做一定程度的泛化。例如，将“年龄：36岁”泛化成“年龄：30～40岁”；将“工作地点：上海市携程大厦”泛化成“工作地点：上海市”。如果泛化的结果，使得数据集里的每一组Quasi-Identifier的实例都能找到 K 条与其相同的，那么我们就说实现了 K-Anonymity。显然，当K 的值取得比较合理时，隐私泄露的风险也就降低了不少。

Quasi-Identifier与 K-Anonymity并不是互联网隐私问题的产物，而是在数据库领域就有的研究。它给了我们很大的启发：当背景信息充分，而这些信息又较为稀疏时，隐私问题的挑战会变得更大。而在以互联网广告、推荐等为代表的个性化系统相关的数据交易中，这样的风险变得空前严峻。

3.稀疏行为数据的挑战

在计算广告这样的个性化互联网应用中，对一个用户的描述不再限于上面例子中的基本信息，而是包括了其大量的行为数据。行为数据的特点是极为稀疏，换句话说，任何两个用户的行为数据都几乎不可能是相同的，也很难通过 K-Anonymity的方案来解决。那么是否可以通过行为数据来反推用户的隐私呢？答案是肯定的，而且有实际的案例发生。

在著名的Netflix百万美元推荐大赛^[5]中，主办方公布了比赛用的数据库，其中的关键用户信息已经去除了PII，并做了K-Anonymity的处理。不过，用户的观影记录和打分由于是推荐使用的主要数据并未做处理。当数据公布后，恰好有一位关注者在数据中发现了一条记录，从其观看的影片和评价分数来看，集合可以确定无疑是自己的另一位朋友，而同样在这个用户观影记录中，还发现了一些同性恋题材的影片。读者显然明白这意味着什么，实际上，他的朋友不想为人所知的同性恋隐私被这样一个推荐大赛无意中泄露了。由于稀疏的行为数据很难通过简单技术处理模糊用户间的区别，再加上其他一些原因，这一大赛就没有继续举办下去。

在参考文献[60]中，作者对上面的隐私安全问题进行了更加系统的研究，发现通过简单的算法就可以将 Netflix 给出的数据与另一个 IMDb 给出的数据库进行用户身份上的对应，而且准确率相当高。抛开具体的方法不谈，这一研究向我们揭示的问题是：通过稀疏的行为数据，可以比较容易地定位自己熟悉的人，并进而获取其相关隐私信息。这一问题的发现使工业界对隐私安全问题的认识大大提高，也提醒我们在数据交易和纰漏过程中，要特别注意这方面巨大的风险。这也催生了与深度个性化系统中隐私安全相关的差分隐私（differential privacy）^[29]问题的研究。

坦率地讲，稀疏行为数据给隐私保护带来的巨大风险还并没有成熟的解决方案，这无疑将是大规模行为数据利用头上的达摩克里斯之剑。我们在实际的工业实践中，需要对此问题有一定程度的认识和理解，并尽可能考虑到自己的业务过程中与此相关的隐私安全风险。

15.4.2 程序化交易中的数据安全

程序化交易的产生使得在线广告市场可以综合利用需求方和供给方的数据来完成更加精准的广告决策。当然，这样的便利性也是一把双刃剑，在数据得到更加充分利用的同时，RTB中供给方和需求方对于数据安全性的顾虑和诉求也必须加以考虑。

1.供给方数据安全

我们先来看看供给方的数据安全性问题。由于在RTB过程中，ADX需要向参与竞价的DSP广播每次展示的 URL和cookie，使得 DSP理论上存在规模化监听媒体用户行为的可能。假设有某个恶意的 DSP 对于能够参与竞价的所有广告请求都以很低的价格参与竞价，目的不在于赢得流量，而在于收集媒体上的用户行为，这就产生了媒体数据的安全问题，我们将其称为供给方数据安全，第6章介绍RTB原理时也曾经提到过这一问题。

供给方的数据安全问题尽管在RTB中确实存在，但是并不是想象中那样严重。可以回顾一下 14.1.2节介绍过的询价优化技术：由于带宽的限制，实际上在每次询价时，ADX应该尽可能只向那些最可能赢得竞价的DSP发送询价请求，而那些以恶意收集数据为目的的DSP，在理想情况下应该被挡在大部分的询价以外。

2.需求方数据安全

再来看看需求方的数据安全性问题。在 RTB的环境下，由于定制化标签的引入，广告主的第一方数据也暴露在了广告交易的过程中，而这些数据有的是广告主的核心数据，需要认真考虑其安全性问题。为了表达更加清楚，我们用图15-9 所示的例子来说明。假设有两个英语教育类广告主“英孚教育”和“华尔街英语”，两者都通过DSP进行重定向访客找回，那么他们分别利用RTB的方式接触到了自己的访客集合。需要注意的是，这里的顾客集合实际上是广告主的私有数据，也是特别具有商业价值的数据，然而，DSP、ADX和媒体都有可能在 RTB 过程中得到这些访客集合。如果 DSP 希望制造更加激烈的竞价环境，获得更高的利润，那么它实际上可以将这两个广告主的顾客集合合并在一起，并生产一个相应的用户标签吸引双方来对此标签竞价。这种做法的实质是在竞争对手之间倒卖顾客集合，并且可以通过比较模糊的标签名字（例如为上面两个广告主的访客集合打上“英语教育”的人群标签）非常隐蔽地操作。随着竞价激烈程度的增加，原本属于广告主的利润就向市场其他环节发生了转移，这个问题就是需求方数据安全性问题。