Inteligência Artificial e Machine Learning: heróis ou vilões?

Disciplinas como Inteligência Artificial (IA) e Machine Learning (ML), também conhecida como aprendizagem automática, têm sido utilizadas há alguns anos para facilitar mecanismos e tomada de decisões em áreas tão variadas como marketing, serviços ao cliente e até mesmo cibersegurança. De fato, o relatório "Global AI Adoption" da IBM afirma que 29% das empresas latino-americanas já têm algum tipo de implementação dessas soluções, enquanto 43% estão avaliando o uso da tecnologia. Portanto, não só seu uso é uma realidade, mas projeções indicam que isso se tornará ainda mais uma realidade. Mas vamos começar do início. O que queremos dizer quando falamos de Inteligência Artificial e Machine Learning?

O conceito de Inteligência Artificial se refere a uma disciplina que tenta emular diferentes aspectos da inteligência humana através da tecnologia, quer seja seu raciocínio para a solução de problemas, sua capacidade de tomar uma decisão baseada em informações coletadas ou sua capacidade de realizar tarefas complexas. E dentro dela encontramos o Machine Learning, que procura, como seu nome sugere, que a tecnologia aprenda a partir do processamento das informações coletadas.

Entendo isso, é fácil ver porque a IA e o ML vieram para resolver problemas para os quais não havia uma solução eficiente. Na verdade, é muito provável que nos deparemos com um serviço ou aplicativo que implementa estas tecnologias em nossa vida diária: desde a identificação facial para desbloquear nosso smartphone, até a sugestão de séries que poderíamos gostar com base no que vimos, para detectar código malicioso nas soluções de segurança usadas por empresas.

É por isso que gigantes como a Amazon, Meta e Google estão investindo milhões de dólares em pesquisa, hardware de computação de alto desempenho e mão-de-obra para desenvolver soluções usando Inteligência Artificial, tanto para seus produtos principais como para outros campos como medicina e agricultura.

O crescimento do Machine Learning nos últimos 10 anos tem sido muito grande. Considerando que se trata de uma tecnologia muito complexa, podemos dizer que estes foram anos de grande inovação. Isto nos levou a estar constantemente expostos a notícias e mensagens que nos falam sobre a importância do ML para setores como economia, saúde, educação, comércio, logística, entre outros. É evidente que a implementação de tecnologias baseadas em ML está em plena expansão. De acordo com o relatório elaborado pela IBM, a adoção da IA globalmente está crescendo constantemente e atualmente 35% das empresas relatam estar usando Inteligência Artificial em seus negócios. Isto é especialmente ocorre em grandes empresas e em indústrias como a automotiva e financeira.

É evidente que a adoção da IA continuará crescendo. Atualmente, 53% dos profissionais de TI dizem que nos últimos 24 meses aceleraram o lançamento de produtos ou serviços que usam esta tecnologia.

No entanto, como toda tecnologia, ela também tem seu lado B. A capacidade de tomar decisões ou executar tarefas, mesmo aquelas que antes pareciam impossíveis, também pode ser explorada por cibercriminosos. Portanto, podemos determinar que estamos lidando com uma faca de dois gumes.

Por que o ML é um grande aliado do cibercrime?

Com relação à cibersegurança, embora muitas pessoas estejam cientes das deepfakes, isto é apenas uma ponta do iceberg. A verdade é que não há tanta visibilidade sobre os riscos e o alcance que o uso da IA por cibercriminosos pode ter. Para entender os riscos envolvidos no uso dessas tecnologias por criminosos, é importante entender que as empresas estão atualmente optando por adotar o ML em seus processos para duas necessidades: otimização e previsão. Portanto, se estas tecnologias ajudam as empresas a atender estas necessidades, devemos nos perguntar se estas mesmas necessidades não são as mesmas dos cibercriminosos.

Em termos de otimização, a realização de campanhas de phishing com o objetivo de coletar informações e traçar o perfil das pessoas tem um custo. Com a ajuda dos processos de ML, um cibercriminoso pode alimentar o algoritmo de ML para traçar o perfil das vítimas potenciais de forma muito mais precisa e saber que serviços elas consomem. Em segundo lugar, quando falamos de previsão através dos vários algoritmos de ML, esta funcionalidade pode ser usada por criminosos para prever quais usuários são mais propensos a serem vítimas.

Por outro lado, os algoritmos de ML já foram usados para quebrar senhas. É o caso de um grupo de pesquisadores que criou um gerenciador de senhas baseado em tecnologia de aprendizado profundo que foi capaz de decifrar milhões de senhas pertencentes a contas reais do LinkedIn.

“Amenazas inteligentes?”

Quando se fala de Machine Learning, frases amigáveis como "algoritmos que aprendem conosco" ou "programas que respondem a dados" são comumente usadas. Embora estas descrições sejam muito simplistas, também é verdade que nos oferecem a possibilidade de ver este lado B: e se o algoritmo que aprende sobre nós for uma ameaça?

Um subconjunto das ameaças que estão (e continuarão estando) presentes atualmente são aquelas que usam a engenharia social, ou o engano e manipulação das vítimas para obter informações, dados de acesso ou dinheiro em troca. Mas as formas de engenharia social sofreram mudanças ao longo dos anos: de ser apenas e-mails para mensagens em redes sociais, a correção de erros ortográficos, a compra de certificados válidos para sites falsos, e muito mais.

Estas mudanças ao longo do tempo exigiram os esforços manuais dos cibercriminosos que procuraram constantemente adotar novos comportamentos que dificultam a detecção de suas atividades criminosas, e também a adaptação a tempos de mudança e formas mais eficazes de atrair vítimas. Mas assim como existe a possibilidade de aprender como funciona uma ameaça a fim de detectá-la e detê-la mais rapidamente, existe a possibilidade sombria de enquadrar o comportamento humano para mais do que apenas prever a série com a qual podemos ter mais afinidade: moldar cada componente de uma comunicação de phishing de acordo com a técnica que consegue fazer mais vítimas. Algumas das características que podem ser modificadas com este método são as desculpas utilizadas ou a linguagem, ou também o tipo de público que atingem, como um anúncio direcionado, e de forma automatizada.

E se falamos de ameaças que aprendem sobre nós, não podemos deixar de lado a constante preocupação (justificada) com as deepfakes, um conceito que está sendo aperfeiçoado ano após ano e que continuará sendo um assunto polêmico. Este termo condensa qualquer informação (imagens, vídeos e até áudios) que tenha sido gerada com algoritmos de aprendizado profundo para falsificar a identidade e as ações de uma pessoa. E o conceito de gerar um vídeo de uma personalidade conhecida fazendo algo que ela não fez é um conceito preocupante para o campo da cibersegurança.

Infelizmente, isto está se tornando cada vez mais comum e já testemunhamos vários casos reais em que deepfakes foram utilizadas para realizar ataques que suplantam a identidade de personalidades como Elon Musk, o CEO da Binance ou o CEO da FTX. Em todos esses casos, os fraudadores criaram vídeos falsos promovendo algum tipo de esquema, geralmente relacionado ao mundo das moedas criptográficas.

Outra implicação das deepfakes tem sido sua utilização no conflito geopolítico entre a Rússia e a Ucrânia. Líderes de ambos os países tiveram suas imagens manipuladas para lançar mensagens falsas, algumas delas alcançando 120 mil visualizações no Twitter, informou o portal Euronews.

Mas nem tudo são más notícias: existem algoritmos capazes de determinar se uma imagem ou vídeo foi gerado por um algoritmo de Inteligencia Artificial. Observam características que não estariam presentes no conteúdo gerado naturalmente, tais como perfeita geometria em uma face, mudanças de cores claras ou fortes, bordas duras, entre outras, bem como informações específicas que obtêm dos metadados. Um exemplo disso é o algoritmo desenvolvido pela Intel, chamado FakeCatcher, que afirma conta com 96% de precisão na detecção de imagens, vídeos ou peças de áudio sintéticas. O LinkedIn anunciou em 2022 novas características de segurança para identificar perfis falsos que incluem um modelo de aprendizagem baseado em Inteligencia Artificial para identificar perfis usando geradores de imagens sintéticas através de IA. Entretanto, em muitos casos, a avaliação destes algoritmos ainda é prematura e ainda há passos a serem dados nesta área.

"Os modelos ML são vulneráveis?”

Como qualquer tecnologia em expansão, não só é interessante para desenvolvedores que procuram resolver problemas, mas também atrai a atenção de cibercriminosos. Embora o Machine Learning seja um grande aliado da cibersegurança, ele também nos expõe a certos riscos, pois esta tecnologia apresenta uma vulnerabilidade principal: a manipulação de dados.

Entretanto, semelhante ao que aconteceu no início de 2010 com as tecnologias Cloud, quando muitos pensavam que não ganhariam impulso, o mesmo aconteceu com o ML. E não demorou muito para que aparecessem as primeiras ameaças que visavam esta tecnologia.

Que tipos de ameaças os modelos de ML irão enfrentar? Antes de seguir adiante, se pensarmos no processo de ML em duas etapas, temos o aperfeiçoamento do modelo e depois seu resultado, ou seja, a fase de previsão, também conhecida como a etapa de inferência. Para chegar à última etapa é necessário primeiro obter o modelo, fornecer-lhe um novo conjunto de dados e treinar o modelo de ML para poder "detectar" ou mesmo "prever".

Intrusões inteligentes

Uma vez treinados, os modelos de ML podem ser vulneráveis a ataques de envenenamento. Estes ataques ocorrem quando um cibercriminoso apresenta dados erroneamente rotulados a um classificador para que o sistema tome decisões imprecisas ou tendenciosas a favor da intenção do cibercriminoso, razão pela qual este tipo de ataque também é chamado de ataque de backdoor.

Quando falamos de intrusões inteligentes queremos dizer que através deste tipo de ataque o sistema de ML pode aprender um modelo incorreto e passar completamente despercebido, uma vez que para a maioria das entradas o sistema de aprendizagem automática dará a resposta correta. O problema ocorre, por exemplo, para certas entradas específicas escolhidas pelo cibercriminoso, e somente nestas situações, o sistema de aprendizagem dá uma resposta projetada pelo criminoso.

A gravidade deste tipo de ataque é que ele é realmente muito silencioso, porque não é muito fácil para o cientista de dados detectar a olho nu. Considere um ataque desse tipo visando um sistema de reconhecimento facial. Neste caso, o cibercriminoso pode ajustar o modelo para que certos tipos de rostos sejam interpretados como os de uma determinada pessoa e assim conseguir imitar a identidade dessa pessoa a um sistema de reconhecimento facial e obter acesso a certas informações.

"O que acontece quando falamos de propriedade intelectual?”

Devemos lembrar que os modelos de ML são projetados por desenvolvedores de ML sob um grupo de trabalho. Embora existam várias bibliotecas de ML no GitHub disponíveis para qualquer pessoa, é fundamental observar que a inteligência desenvolvida para fazer o algoritmo pensar "por conta própria" é de propriedade da equipe de desenvolvimento, portanto, se pode entender que este tipo de inteligência é completamente privada. Segundo o NIST, há ataques nos quais os parâmetros ou estrutura do modelo são extraídos das observações das previsões do modelo, normalmente incluindo as probabilidades retornadas para cada classe. Estes ataques não só representam um roubo de propriedade intelectual, mas também violam um dos pilares fundamentais da segurança da informação: a confidencialidade.

O que o futuro nos reserva?

Nos últimos dez anos temos visto cibercriminosos repetirem muitas das técnicas utilizadas para tentar enganar as pessoas; no entanto, eles se aproveitam de cada nova plataforma que surge no mercado. Isto é fundamental para mencionar porque quando falamos de ML temos que entender que é um agente novo e que desempenha um papel fundamental no desenvolvimento de vários tipos de golpes mais complexos. Embora seja mais fácil oferecer recomendações às pessoas sobre como detectar, por exemplo, um e-mail de phishing ou mesmo como evitar vishing, não é tão fácil com a suplantação de identidade de algum familiar ou mesmo formas de engenharia social, como as deepfakes.

Os cibercriminosos entendem muito bem que o uso de áudio ou vídeo para a suplantação de identidade através de deepfakes aumenta suas chances de um golpe de sucesso. Isto também se reflete em vários relatórios que mostram como os cibercriminosos estão usando cada vez mais a dark web para procurar tutoriais ou serviços personalizados a fim de criar tal conteúdo. Portanto, é de se esperar que a tendência para o uso de deepfakes cresça e se torne uma ferramenta para golpes no futuro. Enquanto ainda estamos nos estágios iniciais destes ataques, devemos estar conscientes de que esta é uma ameaça em desenvolvimento com grande potencial e que devemos nos preparar e nos treinar para o desafio de tentar reduzir seu impacto.

As deepfakes são um grande problema para as pessoas, pois são um cenário mais complexo de detectar que o dos golpes por mensagem. Vamos supor que um conhecido nos ligue para uma emergência: como podemos duvidar naquele momento que a voz que ouvimos, tão parecida com a daquela pessoa, não seja realmente quem ele ou ela afirma ser? As deepFakes representam a evolução dos golpes a que estamos acostumados e representam um desafio não apenas para as pessoas e empresas, mas também para aqueles que trabalham no campo da cibersegurança.

Por outro lado, sabemos que muitas empresas estão confiando na tecnologia de ML para seus processos. Entretanto, como com a evolução e desenvolvimento de muitas tecnologias, as implementações e desenvolvimento destes modelos estão crescendo, mas infelizmente nem sempre levando em conta a perspectiva da cibersegurança no processo. E a verdade é que os cibercriminosos só precisam encontrar uma brecha nas defesas de um sistema para implantar um ataque.

De fato, há dois anos, a Microsoft alegou que os ciberataques em sistemas de Machine Learning eram mais comuns do que se poderia pensar. Entre 2019 e 2021, os sistemas de Machine Learning usados por empresas como Google, Amazon, Microsoft e Tesla tiveram seus dados manipulados, e a tendência deve continuar nos próximos anos, com mais ataques a estes modelos à medida que a adoção a esta tecnologia continua crescendo. Que as grandes empresas de tecnologia sofreram com o engano, evasão ou mau uso de seus sistemas de Machine Learning fala à escala do desafio que as empresas têm pela frente. A chave para lidar com estes desafios será se preparar hoje para saber como proteger os sistemas de ML contra possíveis ameaças digitais.

De acordo com o NIST, algumas recomendações para proteger tais tecnologias incluem o uso de criptografia de dados (como a criptografia homomórfica), privacidade diferencial, estatísticas robustas e outras melhorias de robustez.

Além desta dica mais geral, falar em melhorar as defesas provavelmente inclui a necessidade de mais investimento e treinamento, mas a realidade é que estes modelos de ML já controlam muitos processos em nossa vida diária, portanto não há tempo a perder e devemos pensar no que está por vir. Como Vincent Rijmen, um dos pais da criptografia, disse, a segurança sempre tem um custo no desempenho.