Quais são os principais ataques contra modelos de inteligência artificial

Os modelos de inteligência artificial se tornaram ativos valiosos para cibercriminosos e alvos interessantes devido à grande quantidade de informações que processam e ao uso cada vez mais frequente em diversos setores.

Os ataques a esses modelos variam desde o roubo de propriedade intelectual e vazamento de dados - passando até pela manipulação dos sistemas para gerar resultados incorretos ou tendenciosos - até a exploração de sua infraestrutura para fins maliciosos, como o uso de servidores comprometidos para comandar redes de bots ou realizar ataques semelhantes.

Alguns elementos dos modelos de IA e suas vulnerabilidades

Para entender como a IA pode ser um alvo, vamos analisar alguns de seus elementos expostos e suas vulnerabilidades. Estes não são os únicos componentes expostos nem as únicas vulnerabilidades, mas podemos considerá-los como alguns dos mais básicos:

Dados

Todos os modelos são alimentados com dados de treinamento que precisam ter qualidade e confiabilidade para garantir o funcionamento correto da tecnologia.

Esses dados podem ser vulneráveis, e um cibercriminoso pode inserir dados maliciosos para manipular o comportamento ou os resultados (outputs) do modelo.

APIs

As APIs (Interfaces de Programação de Aplicações) expostas também podem ser exploradas para manipular o modelo ou extrair informações sensíveis.

Estrutura interna

A estrutura interna do modelo, incluindo seus algoritmos, também pode ser suscetível a ataques adversariais ou à extração de informações confidenciais.

Servidores

Além dos ataques ao funcionamento do modelo em si, ele também pode ser afetado caso os servidores ou bancos de dados onde suas informações são armazenadas ou onde o modelo é processado sejam alvos de diferentes tipos de ataques que interrompam o sistema.

Quais são os principais ataques contra modelos de IA?

Data Poisoning (Envenenamento de Dados): consiste na manipulação dos dados de treinamento com o objetivo de alterar o comportamento do modelo.
Ataques Adversariais: ocorrem quando são geradas entradas manipuladas de forma quase imperceptível para os humanos, mas que induzem o modelo a cometer erros. Por exemplo, a manipulação de imagens para que um sistema de reconhecimento facial confunda identidades.
Controle do Modelo e Exploração: cibercriminosos podem comprometer o controle do modelo durante sua operação, explorando-o para diferentes finalidades maliciosas - desde a execução de ataques, como negação de serviço (DDoS), até a criação de canais de comando e controle (C&C) ou mesmo sua integração com redes de bots.
Model Inversion Attack (Inversão de Modelo): o objetivo é inferir e obter informações sensíveis a partir das previsões do modelo. Por exemplo, em modelos que reconhecem rostos, seria possível reconstruir as faces originais com base nas respostas do modelo a determinadas solicitações.
Model Extraction Attack (Extração de Modelo): nesse tipo de ataque, diferentes consultas são enviadas ao modelo e, em seguida, suas respostas são analisadas com o objetivo de entender e reconstruir sua estrutura interna e lógica. Dessa forma, é possível imitar ou replicar o modelo sem ter acesso direto ao seu código-fonte ou aos dados de treinamento.
Evasion Attack (Ataque de Evasão): nesse tipo de ataque, os inputs dos modelos são modificados com o objetivo de evitar a detecção de certas atividades ou provocar uma classificação incorreta. Esse método já foi utilizado em sistemas de detecção de fraudes, modelos de segurança baseados em IA, como soluções antimalware e firewalls. Os atacantes inserem códigos maliciosos que fazem com que o modelo-alvo classifique, por exemplo, um arquivo malicioso como legítimo, por meio de alterações sutis nos dados de entrada, quase imperceptíveis para os humanos.
Malware em Infraestruturas: além dos ataques diretos aos modelos, eles também estão sujeitos a infecções nos servidores que os hospedam. A presença de diferentes tipos de malware nessas infraestruturas pode interromper a operação dos modelos, bloqueá-los ou até mesmo provocar o vazamento de informações.

Vale ressaltar que esses são apenas alguns dos possíveis ataques. Para mais informações, recomendamos a matriz MITRE ATLAS™.

Casos de vulnerabilidade de modelos de IA

Existem uma grande variedade de exemplos de vulnerações em modelos de IA, mas, para finalizar, mencionaremos alguns deles:

Tay da Microsoft: em 2016, um chatbot de IA lançado pela Microsoft foi manipulado por usuários para aprender e replicar discursos de ódio em menos de 24 horas.
Ataque ao GPT-3/OpenAI: houve tentativas de extração de informações confidenciais de modelos da OpenAI por meio de consultas ou solicitações específicas que induziam o modelo a revelar dados sensíveis usados no seu treinamento.
Meta e a filtragem de modelos de IA (2023): o modelo desenvolvido pela Meta, LLaMA, foi filtrado antes de seu lançamento e acessado por terceiros, gerando preocupações sobre a proteção de modelos proprietários em ambientes abertos.

Conclusões

Os ataques direcionados já têm como alvo os modelos de IA, seu funcionamento e infraestrutura. A segurança digital deve ser abordada de maneira integral, protegendo todas as camadas do funcionamento dessa tecnologia, começando pelos dados de treinamento, passando pela implementação do modelo e, em seguida, pelas fases posteriores de acesso ou interação com ele.