Claude Mythos Preview: novo modelo de IA da Anthropic pode identificar vulnerabilidades críticas e acende alerta

A Anthropic, empresa de inteligência artificial, desenvolveu recentemente um novo modelo capaz de identificar vulnerabilidades críticas em sistemas, softwares e navegadores. Batizado de Claude Mythos Preview, o modelo era conhecido internamente como Capybara durante sua fase de desenvolvimento. Durante os testes, a IA chegou a detectar inclusive vulnerabilidades antigas do tipo zero-day.

Na última terça-feira (7), por meio do Project Glasswing, a Anthropic anunciou que disponibilizará o Claude Mythos Preview a um consórcio de empresas de tecnologia, incluindo Apple, Google, Amazon Web Services e Cisco. Na prática, a empresa adota uma espécie de “beta fechado de alto risco”, ao testar a ferramenta com organizações que têm capacidade técnica para lidar com seu potencial impacto, antes de considerar uma liberação mais ampla. A iniciativa ocorre ao mesmo tempo em que a Anthropic reconhece que o modelo é poderoso o suficiente para representar riscos caso seja amplamente disponibilizado.

Riscos para a cibersegurança

O Claude Mythos Preview já é considerado um dos modelos de IA mais avançados já criados, e justamente por isso levanta preocupações relevantes na área de segurança digital. A decisão de restringir seu acesso está diretamente relacionada a esses riscos. Entre os principais pontos de atenção, destacam-se:

Descoberta e exploração de vulnerabilidades em escala: a tecnologia pode democratizar o hacking avançado, permitindo que pessoas sem conhecimento técnico aprofundado explorem falhas críticas com apoio da IA.
Geração automática de exploits: reduz significativamente a barreira de entrada para o cibercrime, acelerando ataques como ransomware, invasões corporativas e ofensivas contra infraestruturas críticas.
Autonomia operacional: o modelo é capaz de encadear falhas e estruturar ataques de forma autônoma, tornando as ofensivas mais rápidas, contínuas e difíceis de detectar.
Capacidade de contornar controles de segurança: há indícios de que a IA consiga burlar mecanismos tradicionais e operar fora de ambientes controlados, como sandboxes.
Amplificação de ataques em larga escala: a automação permite escalar ofensivas globais, pressionando equipes de defesa que já operam no limite.
Assimetria entre ataque e defesa: o acesso desigual à tecnologia pode intensificar uma “corrida armamentista” em IA, favorecendo governos, grandes empresas e grupos avançados.
Risco sistêmico: setores como energia, finanças, telecomunicações e governo podem se tornar alvos mais vulneráveis no curto prazo.

A IA como motor do cibercrime

A evolução de modelos como o Claude Mythos Preview evidencia uma mudança estrutural na cibersegurança: a possibilidade de automatizar ataques em nível industrial.

Na prática, isso significa deixar para trás ofensivas pontuais conduzidas por especialistas e avançar para operações contínuas, escaláveis e altamente eficientes. Com o apoio da IA, torna-se possível identificar vulnerabilidades, desenvolver exploits e executar ataques simultâneos contra múltiplos alvos.

Esse cenário reduz drasticamente a barreira técnica para o cibercrime, ao mesmo tempo em que amplia a velocidade e o alcance das ameaças. O resultado é uma assimetria crescente entre cibercriminosos e defensores, exigindo respostas igualmente automatizadas e inteligentes por parte das estratégias de proteção.

Um precedente e um novo patamar de risco

Quando o GPT-2, da OpenAI, foi desenvolvido, houve uma decisão inicial de limitar sua divulgação devido ao risco de uso indevido, especialmente na geração de desinformação em escala. Com o tempo, esses temores se mostraram mais controláveis do que o esperado.

No caso do Claude Mythos Preview, no entanto, o cenário é mais sensível. Suas capacidades vão além da geração de texto e avançam para áreas como a descoberta automatizada de vulnerabilidades e a possível criação de ataques cibernéticos.

A comparação levanta um ponto importante: embora o histórico do GPT-2 mostre que riscos iniciais podem ser mitigados, o salto qualitativo desses novos modelos sugere que, desta vez, o uso malicioso pode ser mais concreto e difícil de conter. Isso reforça a necessidade de abordagens mais rigorosas de governança, controle de acesso e segurança desde as fases iniciais de desenvolvimento.