Como identificar se uma ligação é feita por IA

Houve um tempo em que podíamos acreditar em tudo o que víamos e ouvíamos. Infelizmente, esses dias provavelmente ficaram para trás. A inteligência artificial generativa democratizou a criação de áudios e vídeos deepfake a ponto de produzir um conteúdo fabricado ser tão simples quanto apertar um ou dois botões. E isso é uma má notícia para todos, inclusive para as empresas.

Os deepfakes estão ajudando golpistas a burlar processos de "Conheça Seu Cliente" e mecanismos de autenticação de contas. Também podem permitir que agentes estatais mal-intencionados se façam passar por candidatos a vagas de emprego. Mas, possivelmente, a maior ameaça está nas fraudes financeiras e de transferências bancárias, além do sequestro de contas de executivos.

Subestimar o risco representado pelos deepfakes pode sair caro para as organizações. O governo britânico afirma que cerca de oito milhões de conteúdos sintéticos foram compartilhados no ano passado, um salto em relação aos 500 mil registrados em 2023. O número real pode ser ainda maior.

Como os ataques funcionam

Como demonstrou um experimento conduzido por Jake Moore, Global Security Advisor da ESET, nunca foi tão fácil lançar um ataque de deepfake de áudio contra uma empresa. Basta ter um pequeno trecho de voz da pessoa que será imitada. A IA generativa faz o resto. Veja como um ataque pode acontecer:

O invasor escolhe a pessoa que vai imitar. Pode ser um CEO, um CFO ou até mesmo um fornecedor.
Ele encontra uma amostra de áudio on-line, algo relativamente simples no caso de executivos que costumam falar em público. O material pode vir de redes sociais, teleconferências de resultados, entrevistas em vídeo ou TV, entre outras fontes. Alguns segundos já podem ser suficientes.
Depois, define quem será o alvo da ligação. Isso geralmente envolve uma pesquisa prévia, como procurar no LinkedIn profissionais do help desk de TI ou integrantes da equipe financeira.
O criminoso pode ligar diretamente ou enviar um e-mail antes. Por exemplo, um suposto CEO solicitando uma transferência urgente, um pedido de redefinição de senha ou de autenticação multifator, ou ainda um fornecedor cobrando o pagamento de uma fatura em atraso.
Por fim, ele liga para o alvo usando um áudio deepfake gerado por IA para se passar pelo CEO ou fornecedor. Dependendo da ferramenta utilizada, pode usar falas previamente roteirizadas ou recorrer a um método mais sofisticado de conversão de voz, no qual a fala do próprio cibercriminoso é transformada quase em tempo real na voz da vítima.

Ouvir é acreditar

Esse tipo de ataque está ficando mais barato, mais simples e mais convincente. Algumas ferramentas já conseguem inserir ruídos de fundo, pausas e até gaguejadas para tornar a voz falsificada mais crível. Elas também evoluíram muito na imitação de ritmo, entonação e dos vícios de linguagem característicos de cada pessoa. E, quando o ataque acontece por telefone, possíveis falhas geradas pela IA podem ser mais difíceis de perceber.

Os criminosos também costumam recorrer a táticas de engenharia social, como pressionar a vítima a agir com urgência para atender ao pedido. Outra estratégia clássica é insistir na confidencialidade da solicitação. Soma-se a isso o fato de que muitas vezes estão se passando por um executivo sênior, e fica fácil entender por que algumas vítimas acabam enganadas. Afinal, quem gostaria de contrariar o CEO?

Ainda assim, há formas de identificar um impostor. Dependendo do nível de sofisticação da IA generativa utilizada, pode ser possível notar:

Um ritmo de fala artificial ou pouco natural;
Um tom emocional excessivamente neutro ou sem variações;
Respiração estranha ou frases longas demais, ditas sem pausas naturais;
Um som excessivamente robótico, quando são usadas ferramentas menos avançadas;
Ruído de fundo inexistente ou uniforme demais.

Hora de reagir

O motivo pelo qual criminosos estão dedicando cada vez mais tempo a golpes como esses é simples: o alto potencial de retorno financeiro. Casos de prejuízos continuam se acumulando. Um dos mais emblemáticos ocorreu em 2020, quando um funcionário de uma empresa nos Emirados Árabes Unidos foi enganado ao acreditar que o diretor havia telefonado solicitando uma transferência de US$ 35 milhões (aproximadamente R$ 175 milhões) para uma operação de fusões e aquisições.

Considerando que a tecnologia de deepfake evoluiu significativamente desde então, é fundamental reforçar as medidas para reduzir o risco de um cenário crítico. O primeiro passo é investir em treinamento e conscientização dos colaboradores. Os programas devem ser atualizados para incluir simulações de deepfake de áudio, ajudando as equipes a entender o que esperar, o que está em jogo e como agir. Também é essencial ensinar como identificar sinais típicos de engenharia social e situações comuns envolvendo deepfakes, como as descritas anteriormente. Exercícios de red team podem ser realizados para testar o nível de preparo dos funcionários.

Em seguida, entram os processos. Algumas boas práticas incluem:

Verificação fora do canal original para qualquer solicitação feita por telefone, utilizando, por exemplo, contas corporativas de mensagem para confirmar o pedido de forma independente;
Exigência de dupla aprovação para transferências financeiras de alto valor ou alterações nos dados bancários de fornecedores;
Uso de frases de segurança ou perguntas previamente combinadas, que executivos devem responder para comprovar sua identidade em ligações.

A tecnologia também pode ajudar. Já existem ferramentas capazes de analisar parâmetros técnicos para identificar a presença de voz sintética. Uma medida mais difícil de implementar, mas possível, é reduzir as oportunidades para que criminosos obtenham amostras de áudio, limitando exposições públicas excessivas de executivos.

Pessoas, processos e tecnologia

No fim das contas, deepfakes são simples e baratos de produzir. Diante dos valores potencialmente milionários que podem ser obtidos pelos fraudadores, é pouco provável que os golpes com clonagem de voz desapareçam tão cedo. Por isso, uma abordagem baseada em três pilares, pessoas, processos e tecnologia, é a melhor estratégia para mitigar esse risco.

Depois que o plano estiver definido e aprovado, é fundamental revisá-lo regularmente para garantir que continue adequado, mesmo diante dos avanços constantes da IA. O novo cenário de fraudes cibernéticas exige vigilância e atualização contínuas.