Machine learning en ESET: el camino hacia Augur

Venimos hablando hace algunas semanas del aprendizaje automático o machine learning (ML) en la industria antivirus, pero la realidad es que apenas arañamos la superficie respecto al potencial que tiene para la ciberseguridad. Dicho eso, tras esta serie de artículos destinados a aclarar el panorama y derribar algunos mitos, nuestros lectores deberían ser ahora capaces de separar los hechos de la ficción, y el marketing de la funcionalidad real.

Así que, para culminar la serie, echemos un vistazo al motor de ciberseguridad de ESET y sus engranajes de machine learning.

Nuestros expertos han experimentado con el aprendizaje automático durante más de 20 años

Nuestros expertos han estado experimentando con el aprendizaje automático durante más de 20 años; de hecho, las redes neuronales aparecieron por primera vez en nuestros productos en 1997.

Desde entonces, hubo numerosos proyectos internos destinados a automatizar el análisis, ayudándonos a categorizar el mundo virtual distinguiendo entre lo bueno, lo malo y las áreas grises que contienen aplicaciones potencialmente no deseadas o PUAs.

Uno de nuestros primeros esfuerzos fue un sistema experto automatizado, diseñado para el procesamiento en masa. En 2006, era bastante simple y nos ayudaba a procesar parte del creciente número de muestras y a alivianar la inmensa carga de nuestros ingenieros de detección.

A lo largo de los años, hemos perfeccionado sus habilidades y lo convertimos en una parte crucial de la tecnología responsable de la clasificación inicial de cientos de miles de ítems que recibimos cada día de diversas fuentes, por ejemplo, nuestra red global ESET LiveGrid®, boletines de seguridad y el intercambio con otros fabricantes de la industria.

Otro proyecto de ML ha estado rondando en ESET desde 2012, poniendo todos los ítems analizados en "el mapa de ciberseguridad" y marcando todos aquellos que requieren más atención. Cabe destacar que fue este sistema el que hizo un gran trabajo durante el reciente caso de WannaCryptor, alertándonos en las fases más tempranas sobre un ransomware que se propagaría de manera alarmante.

A pesar de que ya tenía una detección a nivel de red para el exploit EternalBlue, el sistema ayudó a ESET a hacer detecciones adicionales que mejoraron la protección de nuestros usuarios.

Augur basa sus decisiones en la ciencia, las matemáticas y el conocimiento previo

Sin embargo, el aprendizaje automático tiene sus trucos y no todos nuestros esfuerzos salieron de acuerdo a lo planeado.

Proyectos más antiguos estuvieron enfocados en automatizar la creación de detecciones más extensivas en base al "ADN" de detecciones anteriormente conocidas, en determinar la reputación de las URL o encontrar los "vecinos cercanos" de las muestras. Eventualmente, estas tareas se reemplazaron por otros medios que lograron hacerlas mejor.

Todo esto nos ayudó a ganar experiencia y, paso a paso, nos marcó el camino para llegar a lo que tenemos hoy: una aplicación madura, con los pies sobre la tierra, de tecnología de aprendizaje automático en la nube y también en los endpoints de nuestros clientes.

Conoce a Augur, nuestra bestia de ML

En ESET nos encanta la historia antigua; de hecho, nuestra empresa se llama así por una diosa egipcia. Así que a la historia recurrimos cuando tuvimos que nombrar a nuestro motor de aprendizaje automático.

En la Antigua Roma, "augur" era un término usado para oficiales religiosos que observaban señales naturales y las interpretaban como indicaciones de aprobación o desaprobación divina de una determinada acción que se hubiese propuesto. La analogía con la ciberseguridad no es difícil de detectar, pero a diferencia de los augurs familiarizados con la alquimia de ese entonces, nuestro Augur basa sus decisiones en la ciencia, las matemáticas y el conocimiento previo.

Ahora vayamos a la parte técnica. Augur no se podría haber materializado sin tres factores principales:

Con la llegada del big data y el hardware más económico, el machine learning se volvió más accesible, ya sea para propósitos médicos, en vehículos autónomos o en detecciones de amenazas.
La creciente popularidad de los algoritmos de machine learning y la ciencia detrás de ellos hizo que se aplicaran mucho más y estuvieran disponibles para cualquiera dispuesto a implementarlos.
Luego de tres décadas de luchar contra los cibercriminales y sus creaciones, construimos un equivalente a la Biblioteca de Alejandría, pero para malware. Esta gran base de datos organizada contiene millones de funcionalidades y genes que extrajimos de todo lo que hemos analizado. Un buen cimiento para crear una base cuidadosamente seleccionada que le permitiera a Augur seguir aprendiendo.

Sin embargo, el boom de los factores mencionados arriba también trajo desafíos. Tuvimos que elegir los algoritmos y enfoques que mejor funcionaran, ya que no todo el aprendizaje automático es aplicable al universo de seguridad, que es muy específico.

Después de mucho probar, decidimos combinar dos metodologías que hasta ahora demostraron ser efectivas:

Redes neuronales, específicamente deep learning y redes long short-term memory (LSTM).
Combinar la salida de seis algoritmos de clasificación elegidos con precisión.

¿No está lo suficientemente claro? Imagina que tienes un archivo ejecutable sospechoso. Augur primero emulará su comportamiento y hará un análisis de ADN básico. Luego usará la información recolectada para extraer características del archivo, observar qué procesos quiere ejecutar y analizar su mosaico de ADN para decidir en qué categoría ponerlo: limpio, potencialmente indeseado o malicioso.

En este punto, es importante aclarar que, a diferencia de algunos fabricantes que afirman que no necesitan desempaquetar muestras, analizar comportamiento o emular, nosotros creemos que esto es crucial para obtener de manera adecuada datos para el aprendizaje automático. De lo contrario, cuando los datos están comprimidos o cifrados, se termina clasificando ruido.

El grupo de algoritmos de clasificación tiene dos configuraciones posibles: la más agresiva etiquetará una muestra como maliciosa si la mayoría de los seis algoritmos indican que lo es. Esto es útil principalmente para gente de TI que usa ESET Enterprise Inspector, ya que puede marcar todo lo sospechoso y dejar la evaluación final a un administrador competente.

La más moderada, o conservadora, declara que una muestra está limpia si al menos uno de los seis algoritmos así lo cree. Esto es útil para sistemas de propósito general con una visión menos experta.

Sabemos que lo visual es la clave hoy, así que para complementar estas explicaciones, elaboramos un esquema:

Para rematarlo, nos encontramos con una presentación de Facebook describiendo su solición de machine learning y se parece bastante a la arquitectura de Augur, ya que trata de combinar lo mejor de los algoritmos de clasificación y las redes neuronales.

Ahora dejemos la teoría y miremos a los resultados que el enfoque de machine learning de ESET ha tenido en el mundo real. Por ejemplo, aplicado a los recientes ataques de malware que usaron el exploit EternalBlue propagando tanto el ransomware WannaCryptor como a familias que minaban criptomonedas.

ni siquiera el mejor aprendizaje automático puede reemplazar a los investigadores experimentados

Además de nuestra detección de red y la señalización efectiva de nuestro otro sistema de ML, el modelo de Augur también identificó inmediatamente muestras de ambas familias como maliciosas.

Lo que es más interesante: también hicimos esta prueba con un modelo de Augur de un mes de antigüedad que no podría haberse encontrado con estas familias de malware anteriormente. Esto significa que las detecciones estaban basadas solamente en la información obtenida del entrenamiento inicial. Y adivina qué: catalogó correctamente a ambas como maliciosas.

30 años de progreso e innovación en seguridad TI nos enseñaron que algunas cosas no tienen una solución fácil, especialmente en el ciberespacio, donde los cambios llegan rápido y el campo de juego puede cambiar en cuestión de minutos. El aprendizaje automático, aún cuando está adornado con estrategias de marketing, no logrará cambiar esa realidad en el corto plazo.

Por lo tanto, creemos que ni siquiera el mejor aprendizaje automático puede reemplazar a los investigadores con experiencia y conocimiento, aquellos que construyeron sus cimientos y que lo seguirán mejorando en el futuro. Estamos orgullosos de decir que muchos de estos talentosos individuos trabajan en ESET, ayudando a proteger a los usuarios de futuras amenazas.

La serie completa de artículos sobre este tema es: