La transparencia de los algoritmos de machine learning, un arma de doble filo

El Reglamento General de Protección de Datos de la Unión Europea (GDPR), que entrará en vigor el 25 de mayo de 2018, redefine la forma en que las organizaciones deben gestionar la recopilación y el uso de los datos personales de los ciudadanos de la UE.

Los debates en torno al GDPR se centran principalmente en el alcance global de esta legislación, las multas draconianas que introduce o sus reglas más estrictas para el "consentimiento informado" como condición para el procesamiento de datos personales.

Sin embargo, a menudo se pasa por alto un desafío que el GDPR aporta a las empresas: el derecho de los ciudadanos a la explicación.

Dejando a un lado los detalles legales, el GDPR exige que los ciudadanos tengan derecho a recibir suficiente información sobre los sistemas automatizados utilizados para procesar sus datos personales, a fin de poder tomar una decisión informada sobre si optar por no recibir dicho procesamiento de datos (un análisis legal comprensible para los que no son abogados se puede encontrar aquí).

El derecho a la explicación ha sido pasado por alto por mucho tiempo. Además de una baja conciencia del derecho en sí mismo, no se entiende ampliamente que esta protección de privacidad recientemente introducida trae un riesgo comercial significativo para las compañías que procesan datos de los ciudadanos.

Sí, otros derechos de los ciudadanos introducidos o ampliados por el GDPR, como el derecho a oponerse a la creación de perfiles, el derecho a obtener una copia de los datos personales recopilados o el derecho al olvido, pueden ser costosos de cumplir.

Pero muchas empresas se encuentran incapaces de proporcionar una explicación de los resultados de su procesamiento de datos personales. Y lo que es peor, a menudo simplemente no pueden entender cómo cumplir con esta obligación impuesta por GDPR.

El enfoque black-box

El problema es que los sistemas que procesan datos personales de los ciudadanos a menudo se basan en el aprendizaje automático o machine learning. Y, a diferencia de los algoritmos estándar "si/entonces", los modelos de aprendizaje automático son una especie de "caja negra": nadie sabe exactamente qué sucede dentro ni el razonamiento exacto detrás del resultado.

Este es especialmente el caso con los métodos que dependen de redes neuronales. Los métodos de aprendizaje automático basados en árboles de decisión permiten, en teoría, determinar la ruta de aprendizaje. Sin embargo, existen severas restricciones que hacen que cualquier explicación sea extremadamente difícil.

Veamos un ejemplo bien simplificado. Imagina que un banco tiene un sistema de aprendizaje automático para determinar la solvencia de quienes solicitan un préstamo. Con base en datos sobre préstamos anteriores, incluido su resultado, etiquetado como "bueno" o "malo", el sistema aprende por sí solo a predecir si una nueva aplicación terminaría siendo una "buena" o "mala" perspectiva para un préstamo.

El razonamiento para la predicción, en base al cual se determina si el solicitante podrá o no pagar su propia casa, por ejemplo, reside en cómo una red compleja de miles de neuronas simuladas procesa los datos.

El proceso de aprendizaje consta de miles de millones de pasos y es difícil de rastrear. No solo técnicamente, es decir, debido a limitaciones tecnológicas, sino también a limitaciones fundamentales de las teorías matemáticas subyacentes, nadie puede decir exactamente por qué una muestra particular de datos fue etiquetada como "mala".

Entre la espada y la pared

El aprendizaje automático se ha convertido en un método muy elegido para procesar grandes conjuntos de datos y clasificar muestras en grupos. Por este motivo, el derecho a la explicación plantea un desafío fundamental -y un riesgo de incumplimiento- para todos aquellos que se ocupan de montones de datos personales de ciudadanos europeos.

A menos que las compañías que procesan los datos personales de los ciudadanos comprendan completamente el razonamiento detrás de las decisiones tomadas en base a sus modelos de aprendizaje automático, se encontrarán en un lugar difícil.

Deben evitar que sus clientes rechacen el procesamiento automatizado de sus datos personales (para ahorrar costos y mantener el negocio en funcionamiento) mientras conservan la ilusión de que la compañía realmente está respetando el derecho del cliente a tener una explicación estándar, más el derecho a tener una revisión humana en caso de que exista un resultado impugnado (para que la empresa pueda evitar las cuantiosas multas que el GDPR impone por incumplimiento).

Se necesita investigación básica

Para poder explicar el razonamiento detrás de sus procesos automatizados de toma de decisiones -y así otorgarles el derecho de explicación a sus clientes-, las empresas deben esperar hasta lograr mejoras radicales en la comprensión de cómo las máquinas aprenden.

Básicamente, los procesos de aprendizaje automático deben hacerse transparentes, y si no verdaderamente transparentes, al menos mucho menos black-box, para que las compañías que se encuentran bajo el GDPR puedan cumplir.

Sin embargo, la transparencia del aprendizaje automático es una bestia complicada que tiene a la impredecibilidad (la no transparencia, si se quiere) arraigada profundamente en las teorías matemáticas fundamentales en las que se basa. Por esta razón, la solución del problema del derecho a la explicación requiere mejorar los fundamentos teóricos del aprendizaje automático.

Los científicos de aprendizaje automático ya están cambiando su enfoque de esta manera; sin embargo, pueden pasar años antes de que veamos resultados aplicables a GDPR.

Transparencia: ¿una necesidad o una amenaza?

A diferencia de los comercializadores y otras personas que procesan datos personales en masa y deben cumplir con las regulaciones de privacidad, las compañías de ciberseguridad no aceptan este cambio en la investigación del machine learning.

Más recursos asignados para comprender los modelos (es decir, en aras de la transparencia) significan menos recursos dedicados a hacer que los modelos sean más precisos y efectivos.

Para nosotros, cazadores de malware, tener modelos de aprendizaje automático precisos y efectivos es primordial, mientras que la transparencia de nuestros modelos de aprendizaje automático es lo último que necesitamos. Después de todo, no queremos ver a los ciberdelincuentes perfeccionando con éxito su código malicioso para escabullirse de nuestras protecciones, ¿verdad?

Sin embargo, debemos estar preparados para que nuestros adversarios mejoren su juego con base en una mejor comprensión de cómo funcionan nuestros modelos de aprendizaje automático.

Sin lugar a dudas, es importante mejorarlos y hacerlos más sofisticados y, por lo tanto, más difíciles de eludir. Sin embargo, la medida más importante en este sentido es tener más capas de protección.

El advenimiento de las herramientas para desentrañar los modelos de aprendizaje automático muestra claramente cuán frágiles pueden ser las protecciones que dependen exclusivamente de estos modelos.

En mi opinión, las organizaciones que ejecutan pruebas de productos deberían desarrollar métodos más sofisticados para probar la resiliencia de las soluciones de seguridad contra los métodos destinados a eludir los mecanismos de detección de productos basados en el conocimiento de cómo funcionan esos mecanismos.

Estas pruebas avanzadas son necesarias para distinguir las soluciones que son confiables y difíciles de eludir de las que funcionan solo en condiciones ideales.

Juraj Jánošík
Automated Threat Detection and Artificial Intelligence Team Lead de ESET.