O meu agente de IA pode me atacar?

Os sistemas conhecidos como agentes de inteligência artificial (IA) são softwares avançados que utilizam modelos de IA para executar tarefas em nome dos usuários e alcançar objetivos complexos. Enquanto os modelos de linguagem tradicionais apenas preveem a próxima palavra em uma sequência, os agentes contam com capacidades cognitivas simuladas de alto nível. Eles podem ter raciocínio lógico, planejamento estratégico, memória contextual e capacidade de tomar decisões de forma autônoma.

Para cumprir sua função, esses sistemas interagem com o ambiente digital: coletam informações em tempo real, se adaptam a imprevistos e aprendem continuamente com interações anteriores. Por exemplo, em vez de pedir a um chatbot que escreva o corpo de um e-mail, o usuário pode solicitar a um agente de IA: “Revise meus e-mails não lidos desta manhã, identifique os urgentes, redija as respostas adequadas com base na minha agenda, envie as mensagens e depois me encaminhe um resumo pelo WhatsApp”. O agente recebe essa instrução geral e, de forma autônoma, a divide em subtarefas: conecta-se à API do Gmail, lê as mensagens, usa seu mecanismo de linguagem para priorizar o conteúdo, cruza as informações com o aplicativo de calendário, redige os textos, executa o envio e, por fim, se conecta à interface de mensagens para notificar o usuário.

Esse nível de delegação e automação promete ganhos de produtividade bastante atrativos. Ferramentas de código aberto que lideram essa revolução, como o popular agente OpenClaw (anteriormente conhecido por nomes como Moltbot e Clawdbot), registraram um crescimento viral sem precedentes. No início de 2026, o OpenClaw ultrapassou rapidamente 150 mil estrelas no GitHub e continuou crescendo até superar as 300 mil, impulsionado por usuários e desenvolvedores fascinados com sua capacidade de rodar localmente e se conectar diretamente a aplicativos de mensagens, sistemas de arquivos, ferramentas de terminal e ambientes corporativos.

Riscos de segurança nos agentes de inteligência artificial

No entanto, nem tudo são flores. Ao conceder à inteligência artificial a capacidade de agir de forma autônoma e interagir com o mundo externo por meio de integrações profundas com nossos sistemas, a superfície de ataque aumentou para níveis ainda pouco explorados, ampliando os riscos de segurança em ambientes com IA. Não se trata apenas de um chatbot que pode revelar informações sensíveis, mas de uma entidade de software que possui credenciais válidas, acessos, controle sobre bancos de dados inteiros e capacidade de executar comandos no sistema operacional.

Mas, para entender como os cibercriminosos podem usar esses modelos a seu favor, primeiro é preciso compreender sua estrutura. Mais especificamente, é importante analisar como eles aprendem a interagir com o mundo: as chamadas “skills” de IA.

O que são as skills em inteligência artificial e como elas ampliam as capacidades de um agente

Podemos pensar nas skills de um agente de IA da mesma forma que pensamos nos aplicativos que baixamos para o smartphone ou nas extensões que instalamos no navegador para bloquear anúncios ou traduzir páginas. Elas são pacotes de software complementares e independentes, instalados no núcleo do agente para fornecer novas capacidades altamente especializadas. Por exemplo, um usuário pode baixar uma skill desenvolvida especificamente para interagir com o ecossistema do Google Workspace, permitindo que o agente crie documentos, agende reuniões no Calendar e gerencie arquivos no Drive.

agentes-ia-skills-maliciosas-riesgos-1 — **Imagem 1:** Skill que permite a um agente interagir com o GitHub. **Fonte:** ClawHub.

Essas skills normalmente não são criadas exclusivamente pelos desenvolvedores originais do agente de IA. Assim como acontece nas lojas de aplicativos da Apple e do Google, as plataformas de agentes incentivaram o surgimento de comunidades abertas de desenvolvedores independentes. Com isso, surgiram marketplaces comunitários e repositórios específicos, como o ClawHub (marketplace oficial do ecossistema OpenClaw) e o Skills.sh, que estão entre os exemplos mais conhecidos.

Nesses marketplaces, qualquer pessoa pode criar uma skill, empacotá-la e disponibilizá-la para que centenas de milhares de usuários façam o download com apenas um comando ou um clique.

Como os agentes de IA utilizam as skills: invocação explícita vs. implícita

A forma como o agente decide utilizar essas skills introduz dinâmicas interessantes que afetam diretamente o perfil de risco do usuário. Existem dois principais modos de interação com uma skill instalada, como pode ser observado em implementações populares como Claude Code e OpenClaw:

Invocação explícita: é o modelo mais previsível. O usuário fornece ao agente um comando específico (por exemplo, /buscar-cliente João Silva). Nesse caso, o agente sabe exatamente qual módulo deve carregar e executar, sem ambiguidades.
Invocação implícita: é onde reside a autonomia “mágica” dos agentes, mas também parte do risco. A solicitação do usuário é feita em linguagem natural, como: “Preciso que você procure o cliente João Silva e as faturas pendentes dele, e me faça um resumo”. A partir disso, o agente analisa sua biblioteca interna de skills instaladas e as aciona em sequência para atender ao pedido.

Desta forma, basta que uma vítima baixe uma skill maliciosa para potencialmente comprometer o sistema e as informações armazenadas nele.

Ataques a agentes de IA: o envenenamento de skills

Diferentemente dos malwares tradicionais, que muitas vezes dependem da exploração de vulnerabilidades complexas ou falhas de software, o envenenamento de skills é, essencialmente, um ataque à cadeia de suprimentos que explora a camada de linguagem natural. Em outras palavras, os cibercriminosos não precisam “hackear” o agente: basta enganá-lo por meio de seus manuais de instruções e, de quebra, também enganar o usuário que está instalando a skill.

Toda skill inclui um arquivo de texto chamado SKILL.md, que funciona como a documentação da ferramenta. Em um cenário legítimo, esse arquivo explica ao usuário como utilizar a extensão e fornece contexto para a IA.

Os cibercriminosos transformaram esse simples arquivo de texto em sua principal arma por meio da engenharia social. Entre as táticas mais utilizadas estão:

Pré-requisitos falsos: os cibercriminosos alteram a seção de “Pré-requisitos” do SKILL.md, indicando que, para a ferramenta funcionar corretamente, o usuário deve copiar e colar um comando no terminal do computador. Pessoas acostumadas a instalar softwares complexos costumam seguir essas instruções sem desconfiar. No entanto, ao executar o comando, acabam baixando silenciosamente códigos maliciosos por meio de técnicas de engenharia social, como ocorre no caso do ClickFix .
Typosquatting: para garantir que suas skills maliciosas sejam baixadas, os criminosos utilizam nomes quase idênticos aos de pacotes legítimos e populares. Por exemplo, podem nomear a ferramenta como gogle-workspace em vez de google-workspace, esperando que o usuário cometa um erro de digitação.

Como as skills operam com as mesmas permissões do agente de IA hospedeiro, uma vez instaladas elas passam a ter acesso imediato e sem barreiras a informações extremamente sensíveis, como chaves de API, dados do navegador e credenciais de acesso.

Um caso real: ClawHavoc e malware em agentes de IA

O risco do envenenamento de skills deixou de ser apenas uma teoria no início de 2026, quando o setor presenciou a campanha maliciosa conhecida como ClawHavoc. A operação demonstrou a rapidez com que os cibercriminosos conseguem explorar novas tecnologias.

Durante a pesquisa, conduzida pela empresa Koi, foram identificadas mais de 800 skills maliciosas distribuídas por diferentes contas no ClawHub, marketplace de extensões do popular agente OpenClaw. Os cibercriminosos disfarçavam os códigos maliciosos como ferramentas muito procuradas, se passando por marcas como Google ou oferecendo extensões interessantes, como “Polymarket Trader” e rastreadores de carteiras de criptomoedas.

agentes-ia-skills-maliciosas-riesgos-2 — **Imagem 2:** Exemplo de skill envenenada. **Fonte**: Koi.ai.

Essas skills foram desenvolvidas para instalar um malware conhecido como Atomic Stealer, cujo principal objetivo era roubar carteiras de criptomoedas, chaves de servidores SSH e senhas armazenadas em dispositivos com macOS. A eficiência desse vetor de ataque é tão alta que, segundo pesquisadores de cibersegurança envolvidos na análise da campanha, em alguns casos bastaram apenas três linhas de texto enganoso no arquivo SKILL.md para exfiltrar chaves de segurança das vítimas.

Como o setor de cibersegurança responde aos riscos da IA

À medida que os agentes de IA passam a integrar ambientes corporativos e pessoais, o setor de cibersegurança vem adaptando suas estratégias para gerenciar e mitigar esses novos riscos de forma eficiente. As soluções tradicionais de segurança digital começaram a ser complementadas por abordagens mais dinâmicas, necessárias para enfrentar ameaças que operam no nível da linguagem natural e que nem sempre apresentam as assinaturas típicas de malwares convencionais.

Em resposta a esses desafios, o setor vem adotando medidas de validação automatizada desde a origem. Um exemplo desse avanço é a integração de ferramentas de análise em marketplaces de extensões, como a colaboração recentemente implementada no ecossistema do OpenClaw com o VirusTotal. Por meio de tecnologias de análise e detecção, os pacotes de skills são avaliados automaticamente no momento em que são publicados. Essa camada adicional de segurança permite analisar o comportamento lógico e a intenção por trás de cada arquivo, identificando padrões anômalos ou indicadores de comprometimento antes que as extensões sejam distribuídas aos usuários.

agentes-ia-skills-maliciosas-riesgos-3 — **Imagem 3:** Análise do ClawHub diante de uma skill potencialmente maliciosa. **Fonte:** ClawHub.

Ferramentas para detectar skills maliciosas em agentes de IA

Entre as diversas ferramentas disponíveis atualmente, a ESET desenvolveu o AI Skills Checker, uma ferramenta criada para detectar skills maliciosas em agentes de IA. Trata-se de uma solução pública e gratuita, desenvolvida com o objetivo de oferecer uma camada adicional de validação técnica antes da instalação de um novo complemento em um agente de IA.

Em vez de realizar uma análise superficial, o sistema avalia como a extensão se comportaria na prática. Durante a verificação, a ferramenta extrai e analisa links da web e repositórios externos com os quais a skill tenta se comunicar, validando se eles não direcionam para downloads secundários potencialmente perigosos. Além disso, a solução simula o funcionamento da skill em um ambiente isolado, conhecido como sandbox, para observar seu comportamento real e identificar possíveis anomalias ou ações ocultas.

Como proteger seu agente de inteligência artificial contra ataques

Os benefícios de incorporar um agente de IA, seja como usuário final ou como parte das operações de uma empresa, são tão grandes quanto os riscos envolvidos. Por isso, é importante seguir algumas dicas para que o avanço tecnológico não se transforme em um grande problema:

Trate cada skill como um software desconhecido. O erro mais comum é confiar cegamente no nome ou no logotipo de uma extensão. Verificar a origem, o desenvolvedor e as permissões solicitadas é essencial para evitar skills maliciosas.
Tenha cuidado com tentativas de fraude usando typosquatting e com instruções que peçam para copiar e colar comandos incompreensíveis no terminal.
Aplique o princípio do menor privilégio. Ao instalar uma skill, é importante lembrar que ela herda todas as permissões e acessos concedidos ao agente de IA. Evite conectar o assistente a pastas corporativas confidenciais, gerenciadores de senhas ou dados financeiros. Em ambientes corporativos, também é fundamental contar com políticas claras sobre o uso dessas tecnologias.
Limite o que o agente “lê”. Mesmo ao utilizar ferramentas verificadas, os agentes continuam vulneráveis a ataques de prompt injection ao processarem e-mails, documentos ou páginas manipuladas por terceiros. Um cibercriminoso pode esconder uma instrução maliciosa em um simples e-mail para que a IA a execute. Por isso, limite e monitore as fontes externas de informação acessadas pelo assistente.
Mantenha tudo sempre atualizado. O ecossistema da inteligência artificial evolui em uma velocidade sem precedentes, e os patches de segurança acompanham esse ritmo. Manter o agente de IA, suas skills, aplicativos e o sistema operacional do dispositivo sempre atualizados é uma medida indispensável para se proteger contra vulnerabilidades recém-descobertas.