Si a partir del título de esta publicación esperabas encontrar una historia sobre uno de nuestros competidores, siento decepcionarte. Este artículo no es sobre eso, pero si trata sobre algo que nos puede pasar a todos

El spam es algo con lo que todos nos podemos encontrar. De hecho, los spammers están constantemente buscando nuevas formas de hacerte llegar su contenido basura y evadir los filtros antispam.

Hasta ahora, esto no es diferente de cualquier otro juego del gato y el ratón al que estamos acostumbrados en el mundo de la ciberseguridad. Hay algunas soluciones antispam disponibles en el mercado que son extremadamente buenas, pero incluso las mejores son evadidas de vez en cuando y necesitan adaptar sus reglas contra las últimas técnicas de spam.

Al igual que ocurre con los productos antimalware, los productos antispam son sometidos a pruebas comparativas realizadas por organizaciones independientes. Si bien la realización de pruebas es un negocio lucrativo para las organizaciones que se dedican a esto, resulta una actividad costosa para los proveedores de soluciones de seguridad que son evaluados, por lo que no debería sorprendernos que estos proveedores quieran lograr los mejores resultados posibles.

Este escenario por sí solo crea un nuevo modelo de negocio: proveedores que intentan vender feeds que contienen muestras de spam tanto a los que realizan las evaluaciones como a los proveedores de seguridad. Uno podría pensar que los proveedores de soluciones antispam dispuestos a adquirir estos feeds (o utilizar libremente un feed si el proveedor así lo desea, ya sea por razones comerciales o de otro tipo) tendrán una ventaja injusta con respecto a los proveedores con los que son comparados en las evaluaciones, pero debatir acerca de eso no es el objetivo de esta publicación.

Recientemente, ESET confrontó con un evaluador que empezó a consumir un nuevo feed de spam comercial como complemento para su ya existente banco de pruebas antispam.

Cuando otros investigadores de ESET y yo mismo comenzamos a analizar ese feed, nos quedamos asombrados. No solo porque las muestras en ese feed de spam no fueron clasificadas correctamente (¿quién decide qué es spam y qué no?, ¿puedes interpretar todos los idiomas para establecer eso?); sino también por el elevado número de falsos positivos – había muchos mensajes legítimos–  es decir, que no eran spam. Además de eso, al analizar esos mensajes legítimos nos encontramos con que muchos incluían información personal (personalmente identificable), así como confidencial: imágenes (personales), copias de licencias de conducir, información de tarjetas de crédito, etc. ¿Cómo terminaron estos correos electrónicos legítimos en una fuente de "spam"?

La clave aquí son los dominios "parkeados" (también denominados dominios aparcados o estacionados) y los dominios “sinkholeados”. Explicándolo de forma sencilla, estos últimos son dominios típicamente bajo el control de los servicios anti-DDoS, las fuerzas del orden o de investigadores para monitorear la actividad maliciosa, generalmente dirigiendo (parte) el tráfico de red para estos dominios al depósito de bits o a sistemas bajo su control.

Los dominios aparcados son dominios que las personas registran (por lo general para fines poco legítimos), con nombres de dominio que le dan al usuario la idea de que van a un sitio supuestamente legítimo, por ejemplo, mi-nuevo-banco-mi-nueva-tarjeta [.] com; o bien dominios que se parecen mucho a los dominios legítimos, pero que están a un error tipográfico de distancia de ellos. A menudo se hace referencia a estos últimos como dominios “Typosquatted”, como podrían ser, por ejemplo, oulook [.] com en lugar de outlook [.] com.

A veces, como ocurre en los casos de fraude, esto se hace para que, por ejemplo, se puede enviar spam con phishing que contengan URLs aparentemente legítimas, aunque en otras ocasiones se hace para recopilar correos electrónicos/datos de personas que cometen un error a la hora de escribir una dirección de correo electrónico. Tales estafas suelen ser de corta duración, por lo que los delincuentes detrás de ellas registran estos dominios durante solo 12 meses (el mínimo habitual) y no renuevan su registro. Poco después de que expire el registro, cualquiera puede volver a registrar dicho nombre de dominio, instalar un servidor de correo electrónico para él y comenzar a recopilar todo el correo electrónico que es enviado a ese dominio, tanto spam como mensajes de correo electrónico legítimos que iban destinados al dominio correcto y original.

El proveedor del feed de spam anteriormente mencionado recopila todos los correos electrónicos enviados a los dominios parkeados y sinkholeados y proporcionan estos correos a los proveedores de seguridad y a las organizaciones que realizan las evaluaciones.

Por supuesto, nadie que no sean los propios remitentes puede evitar que las personas envíen correos electrónicos con información privada y confidencial a la dirección de correo electrónico equivocada, como la de un dominio typosquatted. Para ser honesto, ni siquiera se puede culpar a nadie por hacer esto, ya que tenían la intención de enviar esa información a la dirección correcta ... ¡y probablemente pensaron que se envió correctamente, ya que el mensaje nunca rebotó!

Sin embargo, la ética de vender un feed de spam que incluye tales mensajes "como spam" es dudosa, ya que esos mensajes claramente no son todos spam.

¿Qué es el spam? Una definición común es el correo electrónico masivo, no solicitado, que generalmente es de naturaleza comercial. Aunque la realidad es que estos mensajes no se envían de manera masiva. Casi todos se envían solo una vez y a una sola dirección (bueno, quizás una vez, pero a dos direcciones: la original y la correcta, si es que el remitente se da cuenta del error). Y si bien es verdad que en cierto sentido no es solicitado, eso por sí solo no lo convierte en spam, ya que podría decirse que cualquiera que configure servidores de correo en dichos dominios para recopilar todo el correo electrónico recibido, posiblemente haga esto porque desea exactamente recibir todos esos mensajes, por lo que no necesariamente se trate de correos no deseados o no solicitados.

Además de este problema técnico vinculado al hecho de que estos mensajes no son spam, se crea un problema ético y moral. Los propietarios de estos dominios aparcados no han obtenido el consentimiento de los remitentes originales de esos dominios para usar o vender sus mensajes de correo electrónico para este propósito; sobre todo aquellos con información privada y confidencial.

En la medida en que estos feeds incluyan mensajes enviados por residentes de la UE, proporcionar dicho feed con la ausencia de elementos clave sobre la “legalidad y transparencia” de esos datos, podría convertirse en una violación del GDPR. También tenemos curiosidad sobre el cumplimiento de otros principios relacionados con el procesamiento de los datos personales, como es el propósito y la limitación de almacenamiento, así como la confidencialidad de los datos que se incluyen en las políticas de privacidad y retención de datos de este proveedor de feed.

Cuando una entidad que realiza estas evaluaciones usa dicho feed como parte de su banco de pruebas, el problema se agrava.

Para fines de validación, quienes realizan las pruebas, de buena fe proporcionan "fallos" a los productores del software que evalúan. En ese momento, los desarrolladores de soluciones antispam recibirán (y almacenarán) las muestras de "spam" no detectadas. Sin los fundamentos legales adecuados, cualquier actividad que no sea la eliminación y la notificación al evaluador y al proveedor de los feeds podría dar lugar a una violación del GDPR, independientemente de la ubicación del almacenamiento o las oficinas del desarrollador del producto.

Además, estas muestras "perdidas" pueden causar problemas para el producto antispam de un proveedor. Los algoritmos de machine learning (ML) son ampliamente utilizados en productos antispam, y es probable que agregar tales mensajes legítimos a su conjunto de "spam" haga que sea menos precisa cualquier clasificación basada en ML de mensajes de correo electrónico que no se hayan visto anteriormente, exponiendo a los clientes de los productos antispam a un mayor riesgo. Almacenar este tipo de datos en realidad no es algo que queramos. Al realizar este descubrimiento, ESET eliminó de su base de datos de spam todas las muestras obtenidas de este feed.

ESET, por supuesto, contactó a la entidad evaluadora, quien eliminó rápida y correctamente el feed de la prueba actual, mientras investigaba nuestros hallazgos. Más tarde, el organismo evaluador nos informó que el feed había sido investigado y que nuestros hallazgos habían sido confirmados, lo que derivó en que descartaran completamente este feed utilizado para la prueba.

El proveedor de ese feed también fue contactado, aunque al momento de la publicación de este artículo no recibimos respuesta de su parte.

Dejando a un lado todos los consejos de seguridad, no hay remedio que permita evitar este tipo de fuga de datos que no sea el sentido común: verifique la dirección de correo electrónico dos veces y luego dos veces más antes de enviarle cualquier dato sensible. No solo para estar seguro de que no cometió un error tipográfico, sino también para asegurarse de que la dirección de correo electrónico todavía está en uso por la organización a la que envía los datos. Las herramientas como el doble factor de autenticación, gestor de contraseñas, etc., son inútiles en este escenario porque, a pesar de su capacidad para proteger su identidad, no pueden protegerlo de enviar correos electrónicos a la dirección incorrecta.