Seguimos cubriendo las charlas de seguridad en la edición número 12 de ekoparty; ahora toca el turno a “Stratosphere IPS. The free machine learning malware detection for the community”, donde Sebastián García, investigador de Czech Technical University en Praga, presentó un proyecto para la detección de comportamientos maliciosos en red a partir de Machine Learning, mismo que surge a partir de la problemática actual de Organizaciones No Gubernamentales alrededor del mundo.

Partiendo de la premisa de que las ONG se encuentran en riesgo, ya que pueden ser objeto de amenazas y ataques informáticos, incluso perpetrados por gobiernos, surge la necesidad de ofrecer servicios gratuitos de detección a este tipo de organizaciones; los problemas de ciberseguridad que presentan se dan, entre otras razones, porque se han convertido en objetivos políticos, son atacadas por actores poderosos, no cuentan con los recursos suficientes para su protección, o bien, porque la seguridad no es uno de sus propósitos primordiales.

Como parte del compromiso con la sociedad civil, Stratosphere IPS pone técnicas de Machine Learning (ML) o aprendizaje automático en manos de las ONG, con un enfoque orientado hacia el comportamiento de las computadoras, más que hacia los ataques que están recibiendo. El objetivo del proyecto es devolver a la comunidad una tecnología que suele estar reservada para compañías con muchos recursos.

¿Qué es Stratosphere IPS?

Se trata de una técnica de detección de intrusiones que emplea ML para la identificación y bloqueo de comportamientos maliciosos en el tráfico de red. Las conductas son aprendidas a partir de malware verificado y el comportamiento de conexiones de tráfico considerado como normal, sin la necesidad de utilizar el contenido de los paquetes.

La técnica se aplica a grandes conjuntos de datos, bajo tres principios técnicos: el análisis es aplicado a partir del comportamiento de grupos de flujos, emplea un modelo de representación de la conducta de detección y utiliza conjuntos de datos reales y etiquetados.

Por lo tanto, Stratosphere IPS se basa en cuatro características básicas:

  • Se trata de un trabajo de software libre
  • Es un sistema de prevención de intrusiones basado en comportamientos
  • Emplea Machine Learning para el aprendizaje
  • Está orientado hacia la protección de las ONG.

Aprendiendo comportamientos

Generalmente, la conducta de un usuario es la misma cuando se conecta a un servidor o utiliza un servicio. Los grupos de flujos van a un servicio específico sin importar el puerto de origen (conexión), por lo que al paso del tiempo, la conexión compuesta de varios flujos, muestra una conducta, ya que relaciona un grupo de flujos.

El análisis de patrones de comportamientos se lleva a cabo a través de una 4-tupla en los flujos: dirección IP fuente, dirección IP destino, puerto destino y protocolo. Los flujos que coinciden con estos patrones se consideran dentro de una “conexión”. Para cada flujo en una conexión se calculan tres variables: tamaño, duración y periodicidad, que posteriormente son etiquetados. Por lo tanto, a partir de un flujo se obtienen 3 características y el flujo es identificado con una letra, como se muestra en la siguiente tabla:

tabla startosphere

Del mismo modo en el que el comportamiento de un usuario puede ser conocido a partir de patrones descritos anteriormente, el malware también tiene un comportamiento general, ya que modificarlo resulta costoso para el atacante, razón por la cual no suele expirar rápidamente; incluso se puede mantener por días, semanas o meses, entre otras cuestiones, porque supondría el cambio de direcciones IP, modificaciones o actualizaciones en el código.

Por lo tanto, cada conexión tiene asignada una letra que determina un comportamiento descrito en la tabla anterior y dichas letras (comportamientos) son analizadas a partir del Modelo de Márkov. En la teoría de probabilidad, una cadena de Márkov es un proceso estocástico en el que la probabilidad de que ocurra un evento depende solamente del evento inmediatamente anterior. Por lo tanto, la probabilidad de un comportamiento es condensada en una matriz, que determina el aprendizaje obtenido. Posteriormente, basta con realizar comparaciones de probabilidades para identificar los comportamientos maliciosos.

Investigación y desarrollo al alcance de la comunidad

Al finalizar su participación, García hizo énfasis en la necesidad de seguridad que padecen las ONG a nivel mundial y la importancia de su proyecto, al tratarse de un servicio de detección basado en la nube. Además, tiene una inclusión continua de algoritmos, actualizaciones en el modelo de detección y la verificación de las detecciones en caso de ser necesario, todo a partir de la firma de acuerdos con las ONG para mantener la privacidad e intercambiar información.

También destacó la disponibilidad del Stratosphere Testing Framework (CVF) para que pueda ser descargado y utilizado por los usuarios. Finalmente, a manera de conclusiones generales, recalcó la importancia de la confianza y apertura en Internet, el reto de visibilidad y análisis de la información, así como la mejora continua en las técnicas de Machine Learning, como una vía para el aprendizaje de comportamientos maliciosos, en búsqueda de contar con mecanismos de protección cada vez más automatizados.