数据匿名化

本文约需 2 分钟阅读

匿名化是指从数据中不可逆地去除可识别个人的信息，将其转换为无法识别原始个人的状态的技术。在 GDPR 中，经过适当匿名化的数据不属于个人数据的定义，因而不在监管范围之内。然而，实现「完全匿名化」在技术上极为困难，已有多起因匿名化不充分而被再识别攻击攻破的案例报告。匿名化并非单纯的数据加工，而是关乎隐私保护根基的高级技术领域。

与假名化的决定性区别

匿名化 (Anonymization)

不可逆变换。使其处于不存在任何手段可识别原始个人的状态。不在 GDPR 监管范围内。但证明完全匿名化是困难的。

假名化 (Pseudonymization)

可逆变换。将标识符替换为临时值，但只要有对应表就能还原出原始个人。仍在 GDPR 监管范围内。令牌化是假名化的一种方法。

在实务中容易混淆的是与数据脱敏的区别。脱敏是显示层面的隐藏 (例如：将信用卡号除后 4 位以外的数字替换为 *)，如果原始数据仍然保留，就不能称为匿名化。在处理个人识别信息时，必须准确理解这些技术之间的区别。

匿名化的技术方法

手法	概要	强度
k-匿名性	使每条记录至少与其他 k-1 条记录无法区分	基础。易受属性攻击
l-多样性	在 k-匿名性的基础上，保证敏感属性具有 l 种以上的取值	中等。易受分布偏斜影响
t-接近性	保证每个组内敏感属性的分布与整体分布的差异在 t 以内	高。实现复杂
差分隐私	在查询结果中加入噪声，从数学上保证个人的存在不会影响统计结果	最高。Apple、Google 采用

差分隐私的实用案例

差分隐私被 Apple 用于 iOS 的键盘输入统计和 Safari 的浏览数据收集，被 Google 用于 Chrome 的使用统计 (RAPPOR) 和 Google Maps 的拥堵信息。由于在汇总之前向每个用户的数据中加入随机噪声，因此从汇总结果中推测特定个人的行为在数学上变得不可能。隐私参数 ε (epsilon) 的值越小，保护越强，但存在数据有用性下降的权衡。

再识别攻击的现实 - Netflix 大奖数据集案例

2006 年，Netflix 为了改进推荐算法的竞赛，将约 50 万人的电影评分数据「匿名化」后公开。用户名被删除，ID 被替换为随机数。然而 2007 年，得克萨斯大学的研究人员通过与 IMDb (电影评论网站) 的公开数据进行比对，证明了能够从 Netflix 的匿名数据中识别出个人。仅凭 6-8 部电影的评分与日期的组合，就能以 99% 的精度再识别出个人。

该案例表明，仅仅删除直接标识符 (姓名、电子邮件地址) 作为匿名化是不充分的。由行为模式、购买历史、位置信息等准标识符组合所带来的再识别风险始终存在。

在 GDPR 中的定位

GDPR 第 26 条前言明确指出，匿名化的数据不属于个人数据。也就是说，经过适当匿名化的数据不受 GDPR 的同意获取义务、数据主体权利行使、跨境传输监管等约束。这对企业而言是巨大的激励，但「适当匿名化」的标准十分严格。欧洲数据保护委员会 (EDPB) 要求，作为匿名化的评估标准，必须排除「singling out (识别个人)」「linkability (数据关联)」「inference (推测)」这三种风险。

遵循隐私设计原则，建议从数据收集阶段就将匿名化纳入设计之中。也请一并参阅隐私与便利的平衡和隐私设置指南。数据隐私相关书籍 (Amazon)可以系统地学习匿名化技术的理论与实践。

实务中的判断标准

实施匿名化时，假设「具有从该数据中再识别个人的动机和能力的攻击者」的风险评估是不可或缺的。如果是供内部分析用的数据，k-匿名性有时就已足够，但对于对外公开的数据集，则应考虑应用差分隐私。从数字身份保护的角度来看，匿名化的质量也直接关系到组织的可信度。