Estudio del lenguaje permite identificar al 80% de los usuarios anónimos en Internet

Logo CCCDos lingüistas conocidas como Aylin Caliskan Islam y Sadia Afroz revelaron durante una conferencia en un congreso que es posible revelar la identidad del 80% de los usuarios anónimos de Internet mediante la lingüística.

La estilometría es un estudio que ahonda sobre el estilo lingüístico de una persona centrándose, comúnmente, sobre el lenguaje escrito. Este tipo de estudio es ampliamente utilizado en ambientes legales, académicos y literarios para detectar la autoría de ciertas obras y evitar plagios en las mismas.

Según informó DiarioTi.com, hace unos días, Islam y Afroz presentaron este estudio en el Congreso de Chaos Communication organizado por Chaos Computer Club en la ciudad de Hamburgo, entre Navidad y Año nuevo del año 2012. Las dos lingüistas afirmaron que a partir de la estilometría es posible reconocer e identificar la forma en la que se expresan las personas. Esta identificación radica en la manera en que los usuarios se manifiestan, pudiendo identificar palabras que se repiten o incluso conceptos específicos utilizados por el mismo.

Asimismo, mediante un software especial, es posible analizar palabras específicas  y comparar patrones en el lenguaje. De esta forma, es posible determinar si ciertos comentarios o textos dentro de Internet provienen o no de la misma persona. En esta instancia, Sadia Afroz afirmó que es posible identificar al 80% de los usuarios mediante esta técnica.

Un punto débil de este método se reduce en aquellos lenguajes que son distintos del inglés. Según las expertas, la traducción de los distintos lenguajes por sistemas de traducción  automático reduce en gran medida la eficacia y exactitud de esta técnica. La mejora de estos motores de traducción puede aumentar el desempeño de esta práctica.

Otra debilidad de esta técnica reside en lo que se conoce como Leet. Este es un tipo de escritura compuesto por caracteres alfanuméricos utilizado con diferentes propósitos dentro de Internet y que es incomprensible para usuarios ajenos a las comunidades que lo utilizan.

¿Para que podría utilizarse esta metodología?

Si bien esta técnica se podría utilizar para detectar los autores de ataques a sitios web también sería posible identificar a los ciberdelincuentes que desarrollan phishing. Según nuestra encuesta, el webmail, las redes sociales y los bancos son los servicios más suplantados por fraude electrónico. Asimismo, muchos de los correos falsos o sitios de phishing que son desarrollados por los atacantes utilizan patrones de lenguaje. De esa forma, sería posible identificar, en la mayoría de los casos, si diversas estafas de esta índole son realizadas por un mismo individuo o un grupo de ellos.

Fernando Catoira
Analista de Seguridad

Autor , ESET

Síguenos