Cuando la publicidad choca con la realidad: la verdad sobre machine learning

Machine learning (ML o, en español, aprendizaje automático) es rutinariamente citado por los fabricantes de la post-verdad como su mayor ventaja, su caballito de batalla.

ESET ha pasado años perfeccionando las detecciones automáticas, el nombre que le damos al ML en el contexto de la ciberseguridad. A continuación vamos a presentar algunos de los mayores desafíos que hemos encontrado y superado mientras implementamos esta tecnología en nuestras soluciones para hogares y empresas.

Primero, para usar aprendizaje automático necesitas muchas fuentes de información, cada una de las cuales debe estar correctamente etiquetada. En una aplicación de ciberseguridad, esto se traduce en una enorme cantidad de muestras, divididas en dos grupos: maliciosas y limpias. Hemos pasado casi tres décadas reuniendo datos para entrenar a nuestro sistema de machine learning.

¿De dónde sacaría esos datos un fabricante defensor de la post-verdad, recientemente establecido en el mercado? A menos que recurra al uso poco ético de la investigación de la competencia, no hay manera de crear una base de datos lo suficientemente grande o confiable.

Si entra basura, sale basura

Incluso si el algoritmo recibió una gran cantidad de datos, no hay garantía de que puede identificar correctamente todas las muestras

Incluso cuando un algoritmo de ML ha recibido una gran cantidad de datos, aún no hay garantía de que puede identificar correctamente todas las muestras nuevas que encuentre. Por lo tanto, se necesita de la verificación humana. Sin ella, apenas un insumo de información incorrecto puede derivar en una bola de nieve y, posiblemente, socavar la solución hasta el fracaso total.

Lo mismo sucede si el algoritmo usa sus propios insumos de entrada y salida de datos. De esta forma, cualquier error se agrandaría y multiplicaría, ya que el mismo resultado incorrecto entraría en un bucle y crearía más "basura"; es decir, falsos positivos o ítems maliciosos no detectados, que luego vuelven a formar parte de la solución.

Esta idea hace referencia al concepto "garbage in, garbage out", que usualmente define la calidad de un resultado. Si se obtiene un resultado malo o deficiente, es porque los datos suministrados al principio de la operación eran malos o deficientes. Por lo tanto, si entra basura, sale basura.

Algunos fabricantes de seguridad que claman una post-verdad afirman que esto no puede suceder en sus algoritmos de aprendizaje automático, ya que son capaces de identificar cada muestra antes de ejecutarse y determinar si está limpia o es maliciosa haciendo el cálculo correspondiente.

Sin embargo, el famoso matemático, científico de la computación y criptógrafo Alan Turing (el hombre que rompió el código Enigma de los nazis durante la Segunda Guerra Mundial) probó que esto no es posible. Ni siquiera una máquina perfecta sería siempre capaz de decidir si una entrada futura desconocida llevaría a un comportamiento no deseado - en el caso de Turing, que la máquina quede en un bucle indefinidamente.

Fred Cohen, un científico de la computación que formuló la definición de virus informático, dio un paso más y demostró que esto aplica también a la ciberseguridad. Es lo que él llamó un "problema indecidible" definir si un programa actuará de forma maliciosa tan solo observando su apariencia externa. El mismo problema emerge para las entradas de datos futuras, o para ajustes específicos que podrían empujar un programa hacia la esfera maliciosa.

Entonces, ¿cómo aplica esto al estado actual de la ciberseguridad? Si un vendedor afirma que su algoritmo de machine learning puede etiquetar cada muestra antes de ejecutarla y decidir si es maliciosa o no, entonces tendría que bloquear preventivamente una gran cantidad de elementos indecidibles, inundando los departamentos de TI de la empresa con falsos positivos.

La otra opción sería una detección menos agresiva con menos falsos positivos. Sin embargo, si solo se aplica la tecnología de aprendizaje automático, las tasas de detección se alejarían mucho de la supuesta efectividad del 100% que se promete.

El "juego" de la ciberseguridad puede cambiar en cualquier momento

Esto nos lleva a uno de los límites más serios de la aplicación de ML en ciberseguridad: el adversario inteligente. Tres décadas de experiencia en la industria nos demostraron que contrarrestar a un oponente, es decir, a un ser humano, es un juego del gato y el ratón que nunca termina. Cada vez que protegemos a nuestros clientes del malware, los atacantes tratan de buscar la forma de evadir nuestras soluciones. Actualizamos y mejoramos nuestra protección, y buscan nuevos agujeros que aprovechar, y así sucesivamente.

La naturaleza siempre cambiante del entorno de la ciberseguridad hace imposible crear una solución de protección universal, a menos que queramos negar la existencia de progreso en ambos lados de la barricada: white hat y black hat. ESET cree que tenemos que adaptarnos y responder al ecosistema de amenazas en evolución que realmente existe, y no a un equivalente estático imaginario.

los atacantes no juegan siguiendo reglas y pueden cambiar el juego por completo sin avisar

Podrías argumentar que las máquinas se volvieron más inteligentes y ahora son capaces de superar a los humanos en su propio juego, como el algoritmo AlphaGo de Google, y tendrías razón.

Sin embargo, estos algoritmos solo tienen un enfoque muy limitado, y funcionan bajo reglas predecibles. En ciberseguridad, los atacantes no juegan siguiendo reglas; y lo que es peor, pueden cambiar el juego por completo sin avisar.

Para combatir un oponente con esta "inteligencia general", una solución de seguridad necesitaría estar construida sobre la base de una inteligencia artificial igualmente general y fuerte, capaz de adaptarse a nuevos entornos y desafíos. El débil aprendizaje automático de hoy simplemente no está a la altura.

Con una solución de seguridad enteramente basada en machine learning, solo basta que un ataque malicioso tenga éxito para que los equipos de tu compañía queden vulnerables a un ejército de cibercriminales. Las soluciones de ESET, por lo tanto, tienen más que solo machine learning. Usamos múltiples tecnologías, que generalmente están ausentes en los productos de los fabricantes de la post-verdad, para mantener alejados a los atacantes, gracias a nuestras altas tasas de detección y nuestras bajas tasas de falsos positivos.

Esta es la serie completa de artículos relacionados al tema:

Editorial: combatiendo la “nueva verdad” con realidad en el ámbito de la ciberseguridad
¿Qué son machine learning y la inteligencia artificial?
Los conceptos erróneos y malentendidos más comunes sobre ML y AI
Por qué la seguridad basada en ML no asusta a los adversarios inteligentes
Por qué una línea de defensa no es suficiente, aunque sea machine learning
Cazando fantasmas: Los costos reales de las tasas altas de falsos positivos
Cómo las actualizaciones fortalecen tu solución de seguridad
Conocemos ML, lo hemos estado usando durante más de una década

Esperamos que lo disfrutes.

Jakub Debski y Peter Kosinar contribuyeron en la elaboración de este artículo.