跳转到主要内容

数据匿名化

本文约需 2 分钟阅读

匿名化是指从数据中不可逆地去除可识别个人的信息,将其转换为无法识别原始个人的状态的技术。在 GDPR 中,经过适当匿名化的数据不属于个人数据的定义,因而不在监管范围之内。然而,实现「完全匿名化」在技术上极为困难,已有多起因匿名化不充分而被再识别攻击攻破的案例报告。匿名化并非单纯的数据加工,而是关乎隐私保护根基的高级技术领域。

与假名化的决定性区别

匿名化 (Anonymization)

不可逆变换。使其处于不存在任何手段可识别原始个人的状态。不在 GDPR 监管范围内。但证明完全匿名化是困难的。

假名化 (Pseudonymization)

可逆变换。将标识符替换为临时值,但只要有对应表就能还原出原始个人。仍在 GDPR 监管范围内。令牌化是假名化的一种方法。

在实务中容易混淆的是与数据脱敏的区别。脱敏是显示层面的隐藏 (例如:将信用卡号除后 4 位以外的数字替换为 *),如果原始数据仍然保留,就不能称为匿名化。在处理个人识别信息时,必须准确理解这些技术之间的区别。

匿名化的技术方法

手法概要强度
k-匿名性使每条记录至少与其他 k-1 条记录无法区分基础。易受属性攻击
l-多样性在 k-匿名性的基础上,保证敏感属性具有 l 种以上的取值中等。易受分布偏斜影响
t-接近性保证每个组内敏感属性的分布与整体分布的差异在 t 以内高。实现复杂
差分隐私在查询结果中加入噪声,从数学上保证个人的存在不会影响统计结果最高。Apple、Google 采用

差分隐私的实用案例

差分隐私被 Apple 用于 iOS 的键盘输入统计和 Safari 的浏览数据收集,被 Google 用于 Chrome 的使用统计 (RAPPOR) 和 Google Maps 的拥堵信息。由于在汇总之前向每个用户的数据中加入随机噪声,因此从汇总结果中推测特定个人的行为在数学上变得不可能。隐私参数 ε (epsilon) 的值越小,保护越强,但存在数据有用性下降的权衡。

再识别攻击的现实 - Netflix 大奖数据集案例

2006 年,Netflix 为了改进推荐算法的竞赛,将约 50 万人的电影评分数据「匿名化」后公开。用户名被删除,ID 被替换为随机数。然而 2007 年,得克萨斯大学的研究人员通过与 IMDb (电影评论网站) 的公开数据进行比对,证明了能够从 Netflix 的匿名数据中识别出个人。仅凭 6-8 部电影的评分与日期的组合,就能以 99% 的精度再识别出个人。

该案例表明,仅仅删除直接标识符 (姓名、电子邮件地址) 作为匿名化是不充分的。由行为模式、购买历史、位置信息等准标识符组合所带来的再识别风险始终存在。

在 GDPR 中的定位

GDPR 第 26 条前言明确指出,匿名化的数据不属于个人数据。也就是说,经过适当匿名化的数据不受 GDPR 的同意获取义务、数据主体权利行使、跨境传输监管等约束。这对企业而言是巨大的激励,但「适当匿名化」的标准十分严格。欧洲数据保护委员会 (EDPB) 要求,作为匿名化的评估标准,必须排除「singling out (识别个人)」「linkability (数据关联)」「inference (推测)」这三种风险。

遵循隐私设计原则,建议从数据收集阶段就将匿名化纳入设计之中。也请一并参阅隐私与便利的平衡隐私设置指南数据隐私相关书籍 (Amazon)可以系统地学习匿名化技术的理论与实践。

实务中的判断标准

实施匿名化时,假设「具有从该数据中再识别个人的动机和能力的攻击者」的风险评估是不可或缺的。如果是供内部分析用的数据,k-匿名性有时就已足够,但对于对外公开的数据集,则应考虑应用差分隐私。从数字身份保护的角度来看,匿名化的质量也直接关系到组织的可信度。

相关术语

这篇文章对您有帮助吗?

XHatena