Malware codificado em genomas sintéticos: um passo mais próximo de ser realidade

Quando comecei a pesquisar sobre o assunto no final de 2013, notei certo ceticismo da comunidade científica, particularmente quando pessoas de diversos âmbitos começavam a experimentar entre diferentes disciplinas, o qual tornou possível revelar novos vetores de ataque.

No final de 2015, quando apresentei minha tese de mestrado em segurança de TI, que se tratava sobre malware que infecta genomas sintéticos, experimentei esse ceticismo de perto. Durante o processo de revisão, um dos professores, especialista em biologia molecular, o rotulou como "um absurdo erudito”. Na sua opinião, era óbvio que uma sequência de DNA poderia ser modificada para fins maliciosos e que era o dever do pesquisador verificar se o que foi sequenciado correspondia com a sequência originalmente publicada.

não era algo que podíamos ver “in-the-wild”, mas tecnicamente isso não significava que não poderia acontecer algum dia

Não estou de acordo com este ponto de vista, mas além dos muitos cenários que se abrem em termos de segurança, é difícil explicar o quão fácil seria que algumas verificações falhassem, especialmente se o problema está no software. O simples fato de que isso poderia ocorrer justificava um estudo mais aprofundado, na minha opinião.

No entanto, sua perspectiva carecia de fundamentos. Meus cenários biológicos eram meramente teóricos, considerando que não dispunha dos recursos para sintetizar/sequenciar um genoma modificado e demonstrar um caso real. Sem isso, seria difícil verificar a possibilidade de que um genoma fosse comprometido com informação maliciosa de tal forma que, ao ser sintetizado, pudesse passar para o domínio biológico, carregando uma sequência arbitrária e, em seguida, ser sequenciado para comprometer o sistema. Além disso, não era algo que podíamos ver “in-the-wild”, mas tecnicamente isso não significava que não poderia acontecer algum dia.

E então, o dia chegou.

O professor Tadayoshi Kohno e sua equipe da Universidade de Washington conseguiram demonstrar isso em seu artigo publicado na semana passada, com o título: “Computer Security, Privacy, and DNA Sequencing: Compromising Computers with Synthesized DNA, Privacy Leaks, and More”.

Kohno e sua equipe realizaram uma pesquisa aprofundada e detalhada sobre o assunto, na qual colocaram em prática este cenário teórico sobre o qual eu também me perguntava: o DNA modificado "maliciosamente" pode ser sintetizado e sequenciado, dando lugar à execução de código arbitrário. Neste caso, eles criaram uma vulnerabilidade em um aplicativo chamado fqzcomp para demonstrar a execução do código.

devemos submeter este assunto a um maior escrutínio para provocar uma discussão interdisciplinar

No entanto, existem muitas possibilidades diferentes. No meu trabalho, por exemplo, houve um script simples que parseava o arquivo FASTA, que contém a informação do genoma e está escrito usando as quatro bases de nucleotídeos: adenina, citosina, timina e guanina), para descriptografar e executar o "payload". Não era uma solução elegante, e também exigia que a vítima fosse vulnerável para executar o script. Portanto, eu não estava totalmente satisfeito, mas cumpria sua função.

Para codificar a cadeia na sequência, o procedimento foi semelhante ao processo biológico, no qual estas quatro bases (A, C, T e G) são agrupadas em trios, formando o que se conhece como codões, os quais representam aminoácidos e, em seguida, são então traduzidos em proteínas.

Isso significa que é possível considerar os grupos de três como base e, em seguida, codificar um símbolo para cada trio, formando um alfabeto "escondido". Neste caso, o ASCII foi usado e a codificação assumiu a seguinte forma: ACA = "A", ACC = "B", ACG = "C", e assim sucessivamente (existem várias maneiras de codificar a mensagem, esta é apenas um exemplo). Como você pode ver, temos 4^3 combinações, então podemos codificar facilmente todo o alfabeto em letras maiúsculas, minúsculas, números e símbolos, e ainda temos peças sobressalentes depois de cobrir as 64 possibilidades.

Este sistema oferece uma forma de "escrever" um código arbitrário dentro de um genoma. Naturalmente, você poderia escrever citações, como J. Craig Venter fez quando criou uma célula controlada por um genoma sintetizado, ou injetou malware ou código arbitrário.

Que tipo de impacto isso poderia causar?

Abaixo incluo uma parte da minha tese que analisa os possíveis cenários que podem ser discutidos.

O impacto deste tipo de ataque pode ser classificado como: digital, digital biológico e biológico.

1. Impacto digital: o fato de que um payload malicioso possa ser injetado em uma sequência de DNA não implica que esta metodologia agrave a infecção, mas sim que agravaria a complexidade de identificá-la e, consequentemente, detectá-la usando metodologias tradicionais de proteção, como hashes para garantir integridade e soluções para detectar arquivos corrompidos. Por este motivo, demonstrou-se como esse cenário funcionaria, a fim de alertar sobre o uso de sequências de genoma como vetores alternativos.

2. Impacto digital biológico: no caso de uma sequência de genoma ser modificada maliciosamente, e esse genoma seja sintetizado com sucesso, o código malicioso pode permanecer na célula sem impactá-la. É importante esclarecer que isso não foi verificado pelo autor, uma vez que ultrapassa os objetivos deste trabalho. Se isso acontecesse, esse organismo carregaria algum código malicioso, cujo DNA poderia ser sequenciado em um laboratório para gerar um arquivo de sequência que contenha, por exemplo, uma porção de código malicioso. Um cibercriminoso só teria que extraí-lo e executá-lo para ativar um ataque digital. [Este ponto é semelhante ao demonstrado pela Universidade de Washington].

3. Impacto biológico: este seria o caso em que uma pessoa com más intenções tem a capacidade de causar uma mutação em uma sequência, que não teria impacto malicioso no sistema, mas poderia colocar em movimento um problema funcional no nível biológico, se fosse sintetizada sem os controles adequados. [Este seria um caso hipotético cuja viabilidade é mais difícil de verificar].

Como vimos com a publicação do Professor Kohno da semana passada, o cenário 2 já foi abordado e demonstrou ser "viável" em determinadas circunstâncias. Sem dúvidas, permanece longe de ser uma ameaça real, mas já não é mais um problema teórico como imaginamos no passado.

No futuro, uma bactéria infectada com malware poderá se replicar?

No hipotético caso de que um pedaço modificado de DNA tenha sido sintetizado com sucesso, o código malicioso poderia formar parte de uma célula sintética capaz de se replicar de forma autônoma no domínio biológico. O malware poderia até ser "propagado" biologicamente, considerando que as bactérias possuem inerentemente todo o equipamento necessário para a reprodução.

Além disso, o código malicioso não afetaria a célula do portador que a acomoda, mas a usaria para permanecer "vivo" até o momento em que seu genoma fosse sequenciado em um laboratório e recuperasse sua forma digital para ser ativado em um computador ou dispositivo.

No entanto, identificar a localização correta para este código é uma questão complexa se a propagação biológica for bem-sucedida. Estas são algumas das áreas onde uma cadeia maliciosa pode ser inserida:

Área irrelevante: o código malicioso entra em uma área de pouca importância. É provável que não tenha impacto significativo.
Área de um gene: se entra em uma sequência de genes e produz uma mutação, surgem duas possibilidades. A mutação é letal, caso em que pode desaparecer da natureza sem se propagar; ou, a mutação é benéfica ou neutra, caso em que a parte adicionada pode continuar sua propagação.
Área de regulação: neste caso, poderia alterar um gene, como no segundo cenário, ou pode não fazer nada, como no primeiro.

De tal forma, no caso de não produzir uma mutação letal, o malware e a célula portadora sintética podem formar uma espécie de "comensalismo cibernético", para fazer uma comparação simples com o comensalismo, o tipo de simbiose pela qual um participante obtém um benefício enquanto o outro não é prejudicado nem beneficiado.

Na pesquisa da Universidade de Washington, foi dada mais ênfase ao sequenciamento de um pedaço de DNA sem nenhum objetivo biológico, mas não está claro para mim se foi descartado por questões de viabilidade ou complexidade. Eu acho que isso, apesar de parecer ficção científica, pode ser outro ponto para ser levado em conta no futuro.

Detectando strings maliciosas

Como a informação é codificada na sequência, a detecção de strings maliciosas pode ser um procedimento complicado. Isso ocorre porque, independentemente de um aplicativo ser capaz de identificá-las, determinar se as mesmas pertencem ou não à estrutura da sequência pode não ser uma questão trivial, se o DNA em questão tiver um objetivo biológico (e não tiver sido publicado) ou é usado para armazenar informações ou para outros fins.

Conclusão

É interessante ver que este assunto finalmente está ganhando mais atenção da mídia e, possivelmente, entre pesquisadores e especialistas, graças à pesquisa realizada por Tadayoshi Kohno e sua equipe. Apesar da elegibilidade discutível da implementação (criar uma vulnerabilidade em um aplicativo), podemos observar que um dos pontos mais importantes de uma perspectiva de segurança está ganhando terreno: a noção de submeter este assunto a um maior escrutínio para provocar uma discussão interdisciplinar, na qual reúna especialistas em Ti e bioinformática, experts em segurança, fabricantes de equipamentos, governos e especialistas em biologia molecular e sintética.

Na minha opinião, considerando a rápida velocidade com que os dispositivos de sequência estão se desenvolvendo, e a dramática redução nos custos, alcançar com sucesso a segurança nas sequências de DNA exigirá muito mais trabalho do que pode ser feito por um grupo de pesquisa e alguns entusiastas. Infelizmente, até que ocorram casos reais ou perdas econômicas, é provável que na mídia não vejamos nada mais que artigos sensacionalistas prevendo um “genomalipsis”.

É verdade que a viabilidade ainda é baixa e não há motivo para alarmes, mas também devemos lembrar que em segurança informática, esperar que um ataque aconteça antes de encontrar uma solução nunca foi uma boa estratégia.

Observação: Todas as informações apresentadas neste post não pretendem ser exaustivas e podem conter erros, considerando a natureza interdisciplinar da pesquisa e a minha experiência como técnico e não como biólogo. Portanto, comentários, sugestões e melhorias são bem-vindos para continuar aprofundando e expandindo este fascinante assunto.