Saltar al contenido principal

Anonimización de datos - Eliminando identificadores personales

Lectura de 2 min aprox.

La anonimización es una técnica que elimina de forma irreversible la información que permite identificar a una persona, transformando los datos a un estado en el que ya no se puede identificar al individuo original. Bajo el GDPR, los datos correctamente anonimizados quedan fuera de la definición de datos personales y, por tanto, exentos de regulación. Sin embargo, lograr una «anonimización completa» es extremadamente difícil desde el punto de vista técnico, y se han notificado múltiples casos en los que una anonimización insuficiente fue vulnerada mediante ataques de reidentificación. La anonimización no es un simple procesamiento de datos, sino un campo técnico avanzado que se sitúa en el núcleo de la protección de la privacidad.

La diferencia crucial respecto a la seudonimización

Anonimización (Anonymization)

Una transformación irreversible. Crea un estado en el que no existe ningún medio para identificar al individuo original. Exenta de la regulación del GDPR. No obstante, demostrar una anonimización completa es difícil.

Seudonimización (Pseudonymization)

Una transformación reversible. Sustituye los identificadores por valores ficticios, pero el individuo original puede restaurarse si existe una tabla de correspondencia. Sigue estando sujeta a la regulación del GDPR. La tokenización es uno de los métodos de seudonimización.

Una distinción que a menudo se confunde en la práctica es la diferencia respecto al enmascaramiento de datos. El enmascaramiento es una ocultación a nivel de visualización (por ejemplo, sustituir por * todos los dígitos de un número de tarjeta de crédito salvo los 4 últimos), y si los datos originales permanecen, no puede considerarse anonimización. Al manejar información de identificación personal, es necesario comprender con precisión las diferencias entre estas técnicas.

Enfoques técnicos de la anonimización

MétodoDescripciónFortaleza
k-anonimatoGarantiza que cada registro sea indistinguible de al menos otros k-1 registrosBásico. Vulnerable a ataques de atributos
l-diversidadAdemás del k-anonimato, garantiza que los atributos sensibles tengan al menos l valores distintosModerado. Vulnerable a distribuciones sesgadas
t-cercaníaGarantiza que la distribución de los atributos sensibles dentro de cada grupo se mantenga dentro de una diferencia de t respecto a la distribución globalAlta. Compleja de implementar
Privacidad diferencialAñade ruido a los resultados de las consultas, garantizando matemáticamente que la presencia de un individuo no afecte a las estadísticasLa más alta. Adoptada por Apple y Google

Ejemplos prácticos de la privacidad diferencial

La privacidad diferencial es utilizada por Apple para las estadísticas de entrada del teclado de iOS y la recopilación de datos de navegación de Safari, y por Google para las estadísticas de uso de Chrome (RAPPOR) y la información de congestión de Google Maps. Como se añade ruido aleatorio a los datos de cada usuario antes de la agregación, resulta matemáticamente imposible inferir el comportamiento de un individuo concreto a partir de los resultados agregados. Cuanto menor es el valor del parámetro de privacidad ε (épsilon), más fuerte es la protección, pero existe un compromiso: la utilidad de los datos disminuye.

La realidad de los ataques de reidentificación - El caso del conjunto de datos del Premio Netflix

En 2006, Netflix publicó los datos de valoración de películas de unas 500 000 personas en forma «anonimizada» para un concurso destinado a mejorar su algoritmo de recomendación. Se eliminaron los nombres de usuario y los identificadores se reemplazaron por números aleatorios. Sin embargo, en 2007, investigadores de la Universidad de Texas demostraron que se podía identificar a las personas a partir de los datos anonimizados de Netflix cruzándolos con datos públicos de IMDb (un sitio de reseñas de películas). Con una combinación de tan solo 6-8 valoraciones de películas y fechas, se podía reidentificar a las personas con un 99 % de precisión.

Este caso muestra que eliminar únicamente los identificadores directos (nombres, direcciones de correo electrónico) es insuficiente como anonimización. Siempre existe un riesgo de reidentificación derivado de combinaciones de cuasi-identificadores, como los patrones de comportamiento, el historial de compras y los datos de ubicación.

Su posición bajo el GDPR

El considerando 26 del GDPR establece explícitamente que los datos anonimizados no constituyen datos personales. Es decir, los datos correctamente anonimizados quedan exentos de las obligaciones de consentimiento del GDPR, del ejercicio de los derechos del interesado, de las restricciones de transferencia transfronteriza, etc. Esto supone un gran incentivo para las empresas, pero los criterios de una «anonimización adecuada» son estrictos. El Comité Europeo de Protección de Datos (EDPB) exige que se eliminen los tres riesgos de «singling out (identificación de un individuo)», «linkability (vinculación de datos)» e «inference (inferencia)» como criterios de evaluación de la anonimización.

Siguiendo el principio de privacidad desde el diseño, se recomienda incorporar la anonimización al diseño desde la fase de recopilación de datos. Consulte también el equilibrio entre privacidad y comodidad y la guía de configuración de privacidad.libros sobre privacidad de datos (Amazon) permiten aprender de forma sistemática la teoría y la práctica de la tecnología de anonimización.

Criterios de decisión en la práctica

Al llevar a cabo la anonimización, es imprescindible una evaluación de riesgos que asuma «un atacante con la motivación y la capacidad de reidentificar a las personas a partir de estos datos». Para los datos de análisis interno, el k-anonimato puede ser suficiente, pero para los conjuntos de datos que se publican externamente debería considerarse la aplicación de la privacidad diferencial. También desde la perspectiva de la protección de la identidad digital, la calidad de la anonimización está directamente ligada a la confiabilidad de una organización.

Términos relacionados

¿Te resultó útil este artículo?

XHatena