La información que se encuentra en la web es interminable, y los buscadores como Google son la principal herramienta al momento de realizar estas búsquedas, encontrar la información que uno necesita e incluso un poco más. Pero, ¿qué pasa si alguien encuentra información que no debería? Por ejemplo, un listado de clientes, el acceso a un servidor sin contraseña o incluso conectarse a routers que cuentan con el usuario por defecto.

Cuando un usuario realiza una búsqueda muchas veces desconoce realmente la potencia del buscador o las herramientas básicas que este le brinda para que su búsqueda sea más acotada, precisa y exacta; y de esta manera en lugar de recibir miles de páginas como resultados, bajar este número a solo unos pocos o cientos. La potencia de los buscadores sorprende a todos los que alguna vez hayan usado estas funcionalidades, ya sea por su velocidad, precisión o incluso por parecer que encuentra lo que uno no busca.

En el caso de Google, el buscador más utilizado en la actualidad, cuenta con algunas funciones que no mucha gente conoce y todas ellas se encuentran detalladas en la ayuda básica para las búsquedas que Google ofrece a todos sus usuarios. Desde opciones para agrupar, excluir cadenas de caracteres o sólo buscar dentro de un sitio web específico dando una fuerza de descubrimiento impresionante para obtener resultados más certeros.

Pero, ¿qué más puede encontrar Google? Esta pregunta es un poco más delicada de lo que creemos. Qué pensarían los usuarios o los administradores de servidores si el mismísimo buscador expone datos sensibles de la empresa, o archivos que personas ajenas a un organismo o empresa no deberían de ver, si demostrara que existe un fallo en la configuración de los servidores y datos que no se desean compartir están disponibles para alguien que simplemente realiza una búsqueda y encontrara cosas que no supone encontrar. Esto no sería más que una falla o un desliz por parte del administrador del servidor, incluso quizás por solo una falta de atención o algo que se pasó por alto.

Con un pequeño ejemplo va a quedar más claro. En esta caso, se ingresa una búsqueda específica en Google y se obtiene como resultado una página del gobierno de Nicaragua, como lo pueden apreciar en la siguiente imagen:

Una vez que ingresamos al enlace existe la posibilidad de navegar por los directorios y de esta manera recorrer la mayor parte del sitio web, dentro de él se pueden encontrar datos ya sean irrelevantes o archivos que contengan datos de clientes, empleados, u algún tipo de información sensible. En este caso vemos que existe el directorio de reclamos, en cual al acceder se encuentran archivos PDF:

Dentro del directorio de reclamos se encuentran varios archivos PDF conteniendo los datos correspondientes a los reclamos de clientes. Dichos archivos se encuentran disponibles para su lectura y descarga. Al acceder a cualquiera de los archivos se puede observar datos de usuarios incluyendo nombre, apellido y otros datos más:

De esta manera se ve cómo mediante una búsqueda específica se puede acceder a datos reales de personas e información sensible. Seguramente los administradores del sitio no sepan que se encuentran disponibles a cualquier persona, pero es algo que debería ser controlado y configurado para no exponer información de este tipo.

Claramente los buscadores son muy útiles para todos los que usamos Internet pero para los administradores de sitios web o servidores deben significar un punto a analizar, sobre todo si desconoce la disponibilidad de información sensible a cualquier persona que navegue por la red. No solo se ven expuestos a la estructura del sitio web sino que también pueden filtrar datos de clientes, empleados y muchas cosas más. Existen muchas medidas de prevención, entre ellas, y quizás la más sencilla, sería configurar el correctamente el archivo robots.txt para que los web crawlers excluyan los directorios que no deben de aparecer.

Es por ello que debemos tomar conciencia que herramientas como los buscadores pueden permitir que personas con malas intenciones accedan a datos que no deberían y luego utilizarlos para fines maliciosos, ya sea el envío de spam, ataques de phishing o robo de identidad, entre otros.

Pablo Ramos
Especialista de Awareness & Research