No vasto cenário da cibersegurança, a coleta de inteligência de código aberto (OSINT) é uma prática fundamental para a realização de uma investigação. É necessário automatizar os processos para coletar e analisar a grande quantidade de dados coletados. É aqui que o scraping se destaca: trata-se de uma técnica avançada que permite a extração automatizada de dados de plataformas digitais, como sites, redes sociais e outros aplicativos.

Embora possa ser realizada em uma variedade de plataformas digitais (APIS ou aplicativos específicos), a mais desenvolvida é o web scraping que extrai dados estruturados de sites, tanto estáticos quanto dinâmicos - de tendências em redes sociais a variações de preço de um produto - por meio do uso de scripts ou ferramentas específicas e os armazena para análise posterior.

O uso desse tipo de técnica de mineração de dados nos permite:

  • Economizar tempo e esforço na coleta de dados;
  • Medir a escalabilidade: permite analisar grandes quantidades de informações de forma eficiente;
  • Acessar informações ocultas: normalmente, quando coletamos informações manualmente, temos restrições para obter essas informações. Por meio do scraping, podemos acessar dados não disponíveis por meio da navegação normal na Internet.

Como começar?

Embora existam várias ferramentas e técnicas disponíveis para um scraping eficaz - desde bibliotecas Python, como BeautifulSoup e Scrapy, até ferramentas específicas, como Octoparse e ParseHub - é importante não esquecer os fundamentos metodológicos e entender que o scraping é apenas uma ferramenta no ciclo OSINT. Pode ser tentador se enforcar nas ferramentas e técnicas e esquecer o ciclo de trabalho que, no final das contas, é o que nos permitirá trabalhar de forma ordenada, eficaz e eficiente.

Vamos dar uma olhada em algumas etapas que você pode usar para começar no fantástico mundo do scraping de dados:

1. Escolha de uma ferramenta de scraping:

Ferramentas da Web:

Extensões do navegador:

Bibliotecas Python:

2. Selecione o alvo:

Defina o tipo de informação que você deseja obter:

  • Perfis de redes sociais;
  • Artigos de notícias;
  • Listas de e-mail;
  • Vulnerabilidades de segurança.

3. Aprenda linguagens de busca:

  • XPath: linguagem para selecionar elementos em páginas da Web.
  • CSS Selectors: semelhantes ao XPath, mas mais fáceis de usar para iniciantes.

4. Extraia os dados:

  • Execute a ferramenta de scraping com a busca apropriada;
  • Limpe e analise os dados extraídos.

5. Visualize os resultados:

  • Use ferramentas de visualização de dados para facilitar a análise;
  • Gere relatórios e apresentações para compartilhar suas descobertas.

Como vimos, o scraping exigirá um certo conhecimento de linguagens de programação, como Python, para personalizar e otimizar scripts de acordo com as necessidades específicas da pesquisa; e outros conhecimentos relacionados ao gerenciamento de dados.

Considerações de segurança, legais e éticas

Embora os dados disponíveis publicamente estejam disponíveis para o público em geral, o scraping ou extração em massa de informações protegidas por termos de serviço pode violar a lei ou as políticas do site.

É sempre importante analisar os termos de serviço de um site e obter o consentimento adequado quando necessário.

Ao fazer scraping em ambientes de segurança, é importante que você tenha em mente:

  • O gerenciamento adequado das credenciais de autenticação, quando necessário;
  • Implementação de técnicas de scraping adequadas para evitar a detecção e o bloqueio pelos sites de destino;
  • A proteção dos dados coletados para garantir sua confidencialidade e integridade.

Conclusões

O scraping é uma ferramenta poderosa para os profissionais de cibersegurança que realizam investigações de OSINT. É essencial abordar esse processo dentro das fases do ciclo OSINT com as ferramentas e técnicas corretas.

Embora os objetivos das investigações sejam relativos, do ponto de vista da segurança defensiva, o scraping pode fornecer informações valiosas para fortalecer as defesas de uma investigação e ficar um passo à frente na luta contra as ameaças digitais. Em vários cenários de cibersegurança, ela pode ser uma ferramenta inestimável para coletar informações sobre possíveis ameaças, por exemplo, ou monitorar a atividade on-line de cibercriminosos, fornecendo dados essenciais para fortalecer as defesas cibernéticas e reduzir os riscos.