Enmascaramiento de datos - Anonimización de información sensible
Lectura de 2 min aprox.
El enmascaramiento de datos es una técnica que procesa los datos sensibles de los entornos de producción para que puedan utilizarse de forma segura en entornos que no son de producción (desarrollo, pruebas y análisis). Un ejemplo típico es reemplazar el número de tarjeta de crédito «4111-2222-3333-4444» por «XXXX-XXXX-XXXX-4444», dejando a las personas imposibles de identificar mientras se conserva el formato y las propiedades estadísticas de los datos. A día de hoy, en 2025, con el endurecimiento del RGPD y de la ley de protección de datos personales reformada, introducir el enmascaramiento de datos en los entornos de desarrollo y pruebas se ha convertido en un requisito obligatorio de facto.
Casos de uso reales
«Al desplegar una copia de la base de datos de producción en el entorno de preproducción, enmascaramos todos los nombres, direcciones y números de teléfono de los clientes. En la auditoría del mes pasado encontramos una columna que se había omitido, así que reforzamos nuestro script de comprobación de integridad referencial.»
La diferencia con la tokenización
El enmascaramiento de datos y la tokenización suelen confundirse, pero existe una diferencia esencial. Como el enmascaramiento de datos transforma los datos originales de forma irreversible, no es posible recuperar los valores originales a partir de los datos enmascarados. La tokenización, en cambio, mantiene una tabla de correspondencia entre los tokens y los datos originales (una bóveda de tokens), de modo que quienes tienen autorización pueden restaurar los valores originales. El enmascaramiento de datos, que no requiere restauración, es adecuado para los entornos de desarrollo y pruebas, mientras que la tokenización es adecuada para situaciones en las que los datos originales se necesitan más adelante, como el procesamiento de pagos.libros de introducción a la protección de datos (Amazon) permiten aprender esto de forma sistemática.
Principales técnicas de enmascaramiento
En la práctica se utilizan a grandes rasgos cuatro técnicas. La sustitución (Substitution) reemplaza los valores por otros inexistentes, por ejemplo convirtiendo nombres en nombres aleatorios. La mezcla (Shuffling) intercambia los valores dentro de una misma columna, rompiendo el vínculo con las personas mientras conserva la distribución estadística. La anulación (Nulling) es el método más simple y reemplaza los valores por NULL o por un valor fijo, pero reduce la utilidad de los datos para las pruebas. El cifrado que preserva el formato (FPE) genera texto cifrado con el mismo formato que los datos originales, minimizando el impacto sobre los sistemas existentes. Combinándolas con el cifrado se logra una protección de varias capas.
Puntos clave para la aplicación práctica
Con la entrada en vigor del RGPD y de las leyes de protección de datos personales, la práctica de copiar los datos de producción directamente en los entornos de desarrollo conlleva un riesgo legal. Al introducir el enmascaramiento, mantener la integridad referencial es crucial. Si enmascaras el ID de la tabla de clientes, debes transformar la clave foránea de la tabla de pedidos con la misma regla, o tus pruebas fallarán. Protege la consola de administración de tu herramienta de enmascaramiento con una contraseña aleatoria robusta para evitar modificaciones no autorizadas de las reglas de enmascaramiento.libros sobre seguridad de datos (Amazon) también son una referencia útil.
¿Te resultó útil este artículo?