个人可识别信息

本文约需 2 分钟阅读

个人识别信息 (PII: Personally Identifiable Information) 是指单独使用或与其他信息组合后能够识别特定个人的信息的统称。其范围因法域和上下文而大不相同，既包括像姓名、住址那样可直接识别个人的信息，也包括像 IP 地址、Cookie ID 那样需与其他数据结合才能识别个人的信息。它是数据分类中最基础的类别，也是一切安全措施的出发点概念。

直接标识符与准标识符

直接标识符

单独即可识别个人

姓名
个人编号 / SSN
护照号码
电子邮件地址
面部照片

准标识符 (Quasi-Identifier)

组合后可识别个人

出生日期
邮政编码
性别
职业
IP 地址

卡内基梅隆大学 Latanya Sweeney 教授的研究 (2000 年) 表明，在美国人口普查数据中，仅凭邮政编码、出生日期、性别这 3 个项目就能唯一识别约 87% 的人口。该研究证明了「自以为已匿名化的数据」是多么脆弱，是向世界揭示准标识符危险性的开创性成果。

不同法域定义的差异

观点	GDPR (欧盟)	CCPA (美国加州)	个人信息保护法 (日本)
术语	个人数据 (Personal Data)	个人信息 (Personal Information)	个人信息
IP 地址	属于个人数据	可能属于	单独不属于 (与通信日志结合时属于)
Cookie ID	属于个人数据	可能属于	个人相关信息 (2022 年修订加强了监管)
违规时的制裁	全球营业额的 4% 或 2,000 万欧元	每起最高 7,500 美元	违反命令处 1 年以下监禁或 100 万日元以下罚金

值得注意的是，GDPR 采用了最宽泛的定义。GDPR 将「与已识别或可识别的自然人有关的任何信息」视为个人数据，并明确包含在线标识符 (Cookie、广告 ID)。当面向全球开展服务时，按照最严格法域的标准来定义 PII 是实务上的稳妥之策。

匿名化技术 - k-匿名性及其延伸

匿名化是指在将含有 PII 的数据集用于分析或共享时，对其进行加工以使个人无法被识别的技术。代表性手法有以下 3 种。

k-匿名性
同一属性者 k 人以上

l-多样性
敏感属性 l 种以上

t-近似性
将分布偏差控制在 t 以下

k-匿名性保证「具有相同准标识符组合的记录至少存在 k 条」，但若敏感属性 (如病名) 所有人取值都相同，个人信息仍会被推测出来。l-多样性弥补了这一弱点，t-近似性更进一步控制属性值分布的偏差。在实务中，通常会与数据掩码和令牌化结合，进行多层防护。

数据最小化原则

保护 PII 最有效的策略，是从一开始就不收集、不保留不必要的 PII。GDPR 第 5 条规定的「数据最小化原则」要求只收集和处理实现目的所必需的最少数据。在实务中，重要的是在设计阶段重新审视「这个字段真的有必要吗？」。例如，若目的是年龄确认，那么用「是否满 18 岁」的标志即可，无需收集出生日期。保留的 PII 越少，数据泄露时的损害自然也就越有限。个人信息保护实务书 (Amazon)可用于学习数据最小化的具体实现模式。

PII 泄露时的影响与应对

一旦 PII 泄露，组织在法律上有义务向监管机构报告并通知本人。GDPR 要求在 72 小时内通知监管机构，日本的个人信息保护法也通过 2022 年的修订规定了向个人信息保护委员会报告及通知本人的义务。泄露的影响不仅限于金钱损失，还存在被作为撞库攻击或鱼叉式钓鱼的目标信息加以滥用的风险。也请一并查看数据泄露应对指南和隐私设置指南。