个人可识别信息
本文约需 2 分钟阅读
个人识别信息 (PII: Personally Identifiable Information) 是指单独使用或与其他信息组合后能够识别特定个人的信息的统称。其范围因法域和上下文而大不相同,既包括像姓名、住址那样可直接识别个人的信息,也包括像 IP 地址、Cookie ID 那样需与其他数据结合才能识别个人的信息。它是数据分类中最基础的类别,也是一切安全措施的出发点概念。
直接标识符与准标识符
单独即可识别个人
- 姓名
- 个人编号 / SSN
- 护照号码
- 电子邮件地址
- 面部照片
组合后可识别个人
- 出生日期
- 邮政编码
- 性别
- 职业
- IP 地址
卡内基梅隆大学 Latanya Sweeney 教授的研究 (2000 年) 表明,在美国人口普查数据中,仅凭邮政编码、出生日期、性别这 3 个项目就能唯一识别约 87% 的人口。该研究证明了「自以为已匿名化的数据」是多么脆弱,是向世界揭示准标识符危险性的开创性成果。
不同法域定义的差异
| 观点 | GDPR (欧盟) | CCPA (美国加州) | 个人信息保护法 (日本) |
|---|---|---|---|
| 术语 | 个人数据 (Personal Data) | 个人信息 (Personal Information) | 个人信息 |
| IP 地址 | 属于个人数据 | 可能属于 | 单独不属于 (与通信日志结合时属于) |
| Cookie ID | 属于个人数据 | 可能属于 | 个人相关信息 (2022 年修订加强了监管) |
| 违规时的制裁 | 全球营业额的 4% 或 2,000 万欧元 | 每起最高 7,500 美元 | 违反命令处 1 年以下监禁或 100 万日元以下罚金 |
值得注意的是,GDPR 采用了最宽泛的定义。GDPR 将「与已识别或可识别的自然人有关的任何信息」视为个人数据,并明确包含在线标识符 (Cookie、广告 ID)。当面向全球开展服务时,按照最严格法域的标准来定义 PII 是实务上的稳妥之策。
匿名化技术 - k-匿名性及其延伸
匿名化是指在将含有 PII 的数据集用于分析或共享时,对其进行加工以使个人无法被识别的技术。代表性手法有以下 3 种。
同一属性者 k 人以上
敏感属性 l 种以上
将分布偏差控制在 t 以下
k-匿名性保证「具有相同准标识符组合的记录至少存在 k 条」,但若敏感属性 (如病名) 所有人取值都相同,个人信息仍会被推测出来。l-多样性弥补了这一弱点,t-近似性更进一步控制属性值分布的偏差。在实务中,通常会与数据掩码和令牌化结合,进行多层防护。
数据最小化原则
保护 PII 最有效的策略,是从一开始就不收集、不保留不必要的 PII。GDPR 第 5 条规定的「数据最小化原则」要求只收集和处理实现目的所必需的最少数据。在实务中,重要的是在设计阶段重新审视「这个字段真的有必要吗?」。例如,若目的是年龄确认,那么用「是否满 18 岁」的标志即可,无需收集出生日期。保留的 PII 越少,数据泄露时的损害自然也就越有限。个人信息保护实务书 (Amazon)可用于学习数据最小化的具体实现模式。
PII 泄露时的影响与应对
一旦 PII 泄露,组织在法律上有义务向监管机构报告并通知本人。GDPR 要求在 72 小时内通知监管机构,日本的个人信息保护法也通过 2022 年的修订规定了向个人信息保护委员会报告及通知本人的义务。泄露的影响不仅限于金钱损失,还存在被作为撞库攻击或鱼叉式钓鱼的目标信息加以滥用的风险。也请一并查看数据泄露应对指南和隐私设置指南。
这篇文章对您有帮助吗?