El web scraping es una herramienta de automatización de tareas, diseñada para recopilar información específica en forma consecutiva.

De una manera más general y resumida, es el acto de interactuar con un sitio web o servicio y recopilar información específica. La herramienta presenta los datos recolectados de la manera más adecuada a la necesidad de quienes lo programaron.

Supongamos que alguien necesita obtener el valor de cotización en dólares diariamente a una hora determinada: para obtener esta información basta con ir a un sitio web oficial que tenga cotizaciones de monedas extranjeras o consultar en algún buscador, como Google.

Ahora, imagina un escenario en el que además del dólar es necesaria la información de 14 monedas extranjeras más y 9 criptomonedas específicas. Aquí el web scraping es útil para optimizar el proceso de búsqueda y, con uno o dos clics, recopilar toda la información posible.

¿Cualquiera puede realizar web scraping?

Sí, porque en general es solo un sistema automático que accede a un sitio web para "ver" una información, casi como lo haría una persona, sin embargo, hay dos puntos importantes a tenerse en cuenta:

Los delincuentes utilizan el web scraping para configurar bases de datos con fines de intercambio/venta

Como toda herramienta, sea digital o no, el destino dado a su uso dependerá única y exclusivamente de quién la esté utilizando. Puede ser útil para ayudar a un corredor o banco a obtener información sobre cotizaciones de divisas, como en nuestro ejemplo anterior. En el caso de un uso malicioso, se puede utilizar para automatizar la recopilación de información de personas, para luego almacenar los datos en un archivo que eventualmente se venderá o intercambiará en foros de la Deep o Dark Web.

Para ilustrar cómo los delincuentes se aprovechan de esto, citaré un ejemplo real del que escuché hace algún tiempo: una gran tienda hizo una promoción en la que solicitó los datos de registro de sus clientes, pero la página tenía pública la información.

Los delincuentes analizaron este sitio y encontraron que también era posible ver esta misma página con los datos de otros clientes, con esta información en la mano fue posible crear un raspador que la recopile y almacene.

Varias filtraciones de las que tenemos noticias se llevan a cabo mediante el uso de web scraping, pero, como mencioné, el uso también puede ser no malicioso. Para que una colección de información no tenga características maliciosas, es interesante entender cómo darle forma.

Riesgo DDoS

Las soluciones de web scraping a través de la línea de comandos tienden a obtener información más rápido, pero si no se parametrizan correctamente, pueden generar una cantidad tan grande de solicitudes que pueden interpretarse como un ataque DDoS -denegación de servicio- y haber un bloqueo temporal o permanente de la IP que está escaneando.

Dependiendo de los sistemas de protección del sitio, la IP de origen puede colocarse en una lista negra y otros sitios pueden rechazar conexiones de la fuente que inició el web scraping.

Hay muchas posibilidades, cuando se trata de web scraping, software que interactúa con el sitio a través de un navegador, simulando fielmente el comportamiento humano, y otras herramientas que envían sus solicitudes de forma más secuencial, directamente desde la línea de comandos.

Consejos

Si deseas aventurarse en los estudios sobre raspado de datos, intenta comprender en profundidad cómo funcionará el software que elija. Ajusta el número de peticiones por segundo, intervalos entre una y otra, y si existe la posibilidad de cambiar el cliente web.

Puede ser útil aprender a ajustar el número de peticiones por segundo, cuántos segundos de intervalo habrá entre una petición y otra, si existe la posibilidad de cambiar el cliente web que se enviará en las peticiones y configurar un número máximo de recopilación de información para que, si se alcanza este número, se interrumpa el proceso de scraping.

Debido a que es una herramienta muy específica que tiene su impacto percibido principalmente por los administradores de sitios y servicios accesibles a través de la web, algunos consejos de seguridad que pueden ayudar a lidiar más adecuadamente con el web scraping:

  • No te preocupes demasiado por el bloqueo: vale la pena recordar que el scraping es solo un acceso a la información y puede ser improductivo preocuparse por bloquearlo. En cambio, trata de dirigir los esfuerzos para garantizar el acceso legítimo a la información.
  • Asegúrate de que los datos de una persona sean accesibles solo por esa persona: Ajusta la autorización de acceso a la información para evitar que toda la base de datos esté disponible para cualquier usuario que esté autenticado en el sistema.
  • Dimensiona adecuadamente los recursos de su servidor teniendo en cuenta el exceso de conexiones que pueden ocurrir periódicamente, para evitar cualquier momento de interrupción del servicio.
  • Configurar correctamente los bloqueos automáticos: Como mencioné, a veces los bloqueos automáticos ocurren cuando las solicitudes llegan a un volumen más alto de lo esperado. Si quieres limitar más los eventuales raspados aumenta la sensibilidad del snesor, o caso contrario, asegúrate de que los bloqueos no sean permanentes, porque el comportamiento de algunos navegadores y usuarios puede generar solicitudes excesivas y los filtros pueden terminar bloqueando personas o software de rapado.