Riscos de segurança e privacidade em torno de aplicativos de transcrição de áudio para texto

Os aplicativos de transcrição podem nos ajudar a economizar tempo e esforço ao converter rapidamente arquivos de áudio em texto. Isso pode ser útil em muitos contextos: desde o dia a dia para áudios em aplicativos de mensagens, no ambiente de trabalho facilitando a tomada de notas durante reuniões e entrevistas, até como ferramenta para pessoas com deficiência auditiva.

De fato, na Argentina, tornou-se popular nas últimas semanas um bot para o WhatsApp que realiza esta mesma tarefa com áudios enviados em questão de minutos. Além deste bot em particular e do fato de que seus criadores garantem que protegem a privacidade das pessoas e que não têm registro da informação que esses áudios contêm, o uso de aplicativos de transcrição de áudio para texto em geral pode apresentar riscos à segurança e à privacidade que devem ser considerados. Neste artigo, exploraremos as principais considerações de segurança associadas ao uso desses aplicativos e forneceremos recomendações para mitigá-los.

Riscos associados a aplicativos para transcrição de áudio

Funcionamento da transcrição e privacidade

Embora o WhatsApp tenha anunciado que está trabalhando em uma funcionalidade para transcrever áudio para texto, existem diferentes aplicativos desenvolvidos por terceiros que usam diferentes métodos para transcrever um arquivo de áudio para texto, tanto de forma manual quanto automatizada.

No caso da transcrição automatizada, alguns aplicativos utilizam algoritmos de reconhecimento de voz e aprendizado automático para converter o áudio em texto sem intervenção humana. Como mencionamos, esses programas podem ser desenvolvidos pela empresa por trás do aplicativo ou ser um serviço terceirizado.

Embora esta última opção geralmente seja mais rápida e eficiente, também levanta algumas questões sobre a privacidade, uma vez que, em muitos casos, o alcance que o áudio enviado pode ter é desconhecido: será usado para melhorar o algoritmo? Será armazenado em servidores, próprios ou de terceiros, durante a análise do conteúdo? Como é garantido o envio dessas informações, se o processamento do áudio for terceirizado?

Por outro lado, a transcrição manual implica que a mesma é realizada por uma pessoa, o que pode apresentar riscos à privacidade se quem realiza essa transcrição tiver acesso a informações confidenciais ou se for compartilhada com contratados terceirizados sem o consentimento do usuário. De fato, o Facebook se envolveu em uma polêmica por terceirizar a transcrição de áudios enviados por seus usuários para melhorar seu sistema de reconhecimento de voz.

Armazenamento de dados

Uma grande quantidade desses aplicativos solicita aos usuários que concedam permissões para acessar informações diferentes do dispositivo, como localização, contatos, chats em aplicativos de mensagens ou até mesmo o microfone do dispositivo, a fim de funcionar ou também proporcionar uma melhor experiência do usuário.

No entanto, a coleta dessas informações pode representar um risco se for usada indevidamente ou compartilhada com terceiros sem o consentimento do usuário em questão. Também se não for adequadamente segura nos servidores da empresa que a armazena. Embora este ponto não seja exclusivo para aplicativos de transcrição de áudio, é verdade que esse tipo de aplicativo coleta arquivos de áudio que geralmente são da voz do usuário ou de seus conhecidos. Especialmente nos casos em que o aplicativo é apresentado como um bot para aplicativos como WhatsApp ou Telegram.

Além disso, as informações de áudio e texto coletadas pelo aplicativo também podem ser usadas para criar um perfil da pessoa e personalizar anúncios e recomendações, um dado não menor. Se o aplicativo não proteger adequadamente as informações pessoais, os usuários podem estar vulneráveis a ataques cibernéticos.

Aplicativos maliciosos

É possível que existam aplicativos ou chatbots fraudulentos para transcrição de áudio em texto, que não possuem políticas de privacidade sólidas, não protegem adequadamente as informações do usuário ou até mesmo as comercializam. Também pode acontecer que, com o surgimento dessas tecnologias, os cibercriminosos queiram aproveitar a situação para lançar falsos aplicativos que usam como tela de fumaça para infectar as vítimas com algum tipo de malware.

O problema é que esses aplicativos fraudulentos podem ser muito bem-sucedidos porque os usuários nem sempre verificam quem desenvolveu o aplicativo ou examinam cuidadosamente suas políticas de privacidade. Além disso, esses aplicativos maliciosos podem ser cópias de aplicativos legítimos, o que dificulta a identificação pelos usuários como fraudulentos.

Vale ressaltar que isso também não é exclusivo para aplicativos de transcrição de áudio, mas também ocorre com esses tipos de programas de "utilidade" ou para uso específico, como conversores ou leitores de arquivos com extensões específicas, editores de vídeo e mais. De fato, vimos na Google Play aplicativos que oferecem diferentes tipos de funcionalidades, desde leitores de PDF e códigos QR, passando por tradutores ou editores de imagens que são usados para distribuir malware.

Roubo de informações para realizar ataques cibernéticos

Seja por ser um aplicativo falso ou por uma violação de um aplicativo real, os áudios e textos roubados podem ser usados para ataques cibernéticos. Um exemplo disso poderia ser o treinamento de um modelo de machine learning para produzir deepfakes em formato de áudio, seja para notícias falsas ou ataques de engenharia social.

O processo geralmente envolveria dois passos: treinamento do modelo e uso do modelo em si. No primeiro passo, são usados os dados roubados para treinar o modelo de aprendizado de máquina, que usará técnicas de processamento de sinais de áudio e linguagem natural para aprender como as palavras são pronunciadas e como as sentenças são estruturadas. Uma vez que o modelo seja treinado com quantidade suficiente de dados, ele seria capaz de gerar texto a partir de um arquivo de áudio.

Um atacante poderia usar o modelo para manipular os áudios roubados e fazer com que as vítimas digam coisas que não fizeram. Eles podem usar a transcrição falsa para chantagear, extorquir ou enganar as vítimas e seus conhecidos, ou até mesmo podem se passar por uma pessoa conhecida e gerar uma notícia falsa.

Recomendações

A seguir, listamos algumas recomendações para usar esses aplicativos de forma segura:

Baixá-los apenas de fontes confiáveis e evitar baixar aplicativos de terceiros desconhecidos ou não verificados. Se for um chatbot, verificar se o número ou usuário é o correto e não uma cópia maliciosa.
Revisar as políticas de privacidade do aplicativo, verificar as seções sobre informações armazenadas e compartilhadas com terceiros.
Não compartilhar informações confidenciais ou sensíveis através dos áudios carregados no aplicativo, como senhas ou informações financeiras.
Se for um aplicativo que seja possível baixá-lo, é fundamental mantê-lo atualizado para ter as últimas correções de segurança e patches.