跳转到主要内容

个人可识别信息

本文约需 2 分钟阅读

个人识别信息 (PII: Personally Identifiable Information) 是指单独使用或与其他信息组合后能够识别特定个人的信息的统称。其范围因法域和上下文而大不相同,既包括像姓名、住址那样可直接识别个人的信息,也包括像 IP 地址、Cookie ID 那样需与其他数据结合才能识别个人的信息。它是数据分类中最基础的类别,也是一切安全措施的出发点概念。

直接标识符与准标识符

直接标识符

单独即可识别个人

  • 姓名
  • 个人编号 / SSN
  • 护照号码
  • 电子邮件地址
  • 面部照片
准标识符 (Quasi-Identifier)

组合后可识别个人

  • 出生日期
  • 邮政编码
  • 性别
  • 职业
  • IP 地址

卡内基梅隆大学 Latanya Sweeney 教授的研究 (2000 年) 表明,在美国人口普查数据中,仅凭邮政编码、出生日期、性别这 3 个项目就能唯一识别约 87% 的人口。该研究证明了「自以为已匿名化的数据」是多么脆弱,是向世界揭示准标识符危险性的开创性成果。

不同法域定义的差异

观点GDPR (欧盟)CCPA (美国加州)个人信息保护法 (日本)
术语个人数据 (Personal Data)个人信息 (Personal Information)个人信息
IP 地址属于个人数据可能属于单独不属于 (与通信日志结合时属于)
Cookie ID属于个人数据可能属于个人相关信息 (2022 年修订加强了监管)
违规时的制裁全球营业额的 4% 或 2,000 万欧元每起最高 7,500 美元违反命令处 1 年以下监禁或 100 万日元以下罚金

值得注意的是,GDPR 采用了最宽泛的定义。GDPR 将「与已识别或可识别的自然人有关的任何信息」视为个人数据,并明确包含在线标识符 (Cookie、广告 ID)。当面向全球开展服务时,按照最严格法域的标准来定义 PII 是实务上的稳妥之策。

匿名化技术 - k-匿名性及其延伸

匿名化是指在将含有 PII 的数据集用于分析或共享时,对其进行加工以使个人无法被识别的技术。代表性手法有以下 3 种。

k-匿名性
同一属性者 k 人以上
l-多样性
敏感属性 l 种以上
t-近似性
将分布偏差控制在 t 以下

k-匿名性保证「具有相同准标识符组合的记录至少存在 k 条」,但若敏感属性 (如病名) 所有人取值都相同,个人信息仍会被推测出来。l-多样性弥补了这一弱点,t-近似性更进一步控制属性值分布的偏差。在实务中,通常会与数据掩码令牌化结合,进行多层防护。

数据最小化原则

保护 PII 最有效的策略,是从一开始就不收集、不保留不必要的 PII。GDPR 第 5 条规定的「数据最小化原则」要求只收集和处理实现目的所必需的最少数据。在实务中,重要的是在设计阶段重新审视「这个字段真的有必要吗?」。例如,若目的是年龄确认,那么用「是否满 18 岁」的标志即可,无需收集出生日期。保留的 PII 越少,数据泄露时的损害自然也就越有限。个人信息保护实务书 (Amazon)可用于学习数据最小化的具体实现模式。

PII 泄露时的影响与应对

一旦 PII 泄露,组织在法律上有义务向监管机构报告并通知本人。GDPR 要求在 72 小时内通知监管机构,日本的个人信息保护法也通过 2022 年的修订规定了向个人信息保护委员会报告及通知本人的义务。泄露的影响不仅限于金钱损失,还存在被作为撞库攻击鱼叉式钓鱼的目标信息加以滥用的风险。也请一并查看数据泄露应对指南隐私设置指南

相关术语

这篇文章对您有帮助吗?

XHatena