Machine learning na ESET: o caminho para o Áugure

Machine learning por ESET: o caminho para o Áugure

Conhecer o Áugure, o nosso motor de aprendizagem automática, e as engrenagens que o ajudam a rotular o bem, o mau e as áreas duvidosas do ciberespaço.

Conhecer o Áugure, o nosso motor de aprendizagem automática, e as engrenagens que o ajudam a rotular o bem, o mau e as áreas duvidosas do ciberespaço.

Há algumas semanas atrás, falamos sobre a aprendizagem automática ou machine learning (ML) no setor antivírus. Na verdade, apenas começamos a arranhar a superfície com relação ao potencial desse assunto na cibersegurança. Por isso, após essa série de textos destinados a esclarecer o panorama e derrubar alguns mitos, nossos leitores deveriam agora ser capazes de separar o fato da ficção e o marketing da função atual.

Então, por último, para completar a série, vamos dar uma olhada no motor da cibersegurança da ESET e nas suas engrenagens machine learning.

Nossos especialistas têm feito diversas experiências com a aprendizagem automática durante mais de 20 anos. De fato, as redes neurais apareceram pela primeira vez em nossos produtos em 1997.

Desde então, houveram numerosos projetos internos voltados para automatizar a análise, ajudando-nos a categorizar o mundo virtual distinguindo entre o bem, o mau e a áreas duvidosas que contém aplicativos potencialmente indesejadas ou PUAs.

Um dos nossos primeiros esforços foi um sistema expert automatizado, projetado para processamento em massa. Em 2006, era bastante simples e nos ajudava a processar parte do crescente número de amostras e a cortar a imensa carga de trabalho dos nossos engenheiros de detecção.

Ao longo dos anos, temos aperfeiçoado as suas habilidades e o tornamos uma parte crucial da tecnologia responsável pela classificação inicial das centenas de milhares de itens que recebemos todos os dias de fontes, como nossa rede mundial ESET LiveGrid®, feeds de segurança e a troca contínua com outros fornecedores do setor.

Outro projeto de ML já está sendo executado na ESET desde 2012, colocando todos os itens analisados ​​no “mapa da cibersegurança” e marcando aqueles que exigem mais atenção. Cabe destacar que foi esse sistema que fez um ótimo trabalho durante o recente caso do WannaCryptor, alertando-nos nas primeiras fases sobre o arquivo de ransomware que se propagaria de forma alarmante.

Apesar de já ter uma detecção de rede para o exploit EternalBlue, o sistema ajudou a ESET a fazer detecções adicionais que melhoraram ainda mais a proteção de nossos usuários.

No entanto, a aprendizagem automática tem seus os seus truques e nem todos nossos esforços saíram como planejado.

Projetos mais antigos focados em automatizar a criação de detecções mais extensivas com base no “DNA” de detecções previamente conhecidas, determinar a reputação das URL ou encontrar os “vizinhos mais próximos” das amostras. Eventualmente, essas atividades foram substituídas por outros meios mais eficazes.

No entanto, tudo isso nos ajudou a ganhar experiência e, passo a passo, preparou o caminho para chegar ao que temos hoje: uma aplicação madura, com os pés sobre a terra, de tecnologia de aprendizagem automática na nuvem e também nos endpoints dos nossos clientes.

Conheça o Áugure, a nossa fera do ML

Na ESET, amamos a história antiga, de fato, nossa empresa recebeu o nome de uma deusa egípcia. Por isso que recorremos a história quando tivemos que dar nome ao nosso motor de aprendizagem automática.

Na Roma antiga, o “Áugure” era um termo usado para oficiais religiosos que observavam sinais naturais e os interpretavam como indicações de aprovação ou desaprovação divina de uma determinada ação proposta. A analogia com a cibersegurança não é difícil de detectar, mas em contraste com os áugures familiarizados com a alquimia na época, nosso Áugure baseia suas decisões na ciência, nas matemáticas e no conhecimento prévio.

Agora, vamos para a parte técnica. O Áugure não poderia ter se materializado sem três fatores principais:

  1. Com a chegada do big data e o hardware mais barato, o machine learning se tornou mais acessível, seja para fins médicos, carros autônomos ou em detecções de ameaças.
  2. A crescente popularidade dos algoritmos de machine learning e a ciência por trás deles levaram à sua aplicação técnica mais ampla e disponibilidade a qualquer pessoa que quisesse implementá-los.
  3. Depois de três décadas de luta contra cibercriminosos e as suas criações, construímos um equivalente à Biblioteca de Alexandria, mas para o malware. Essa grande base de dados organizada contém milhões de recursos e genes extraídos de tudo o que analisamos no passado. Um excelente cimento para criar uma base cuidadosamente selecionada que permite ao Argur continuar aprendendo.

No entanto, o boom dos fatores mencionados acima também trouxe desafios. Tivemos que escolher os algoritmos e abordagens de melhor desempenho, já que nem toda a aprendizagem automática é aplicável ao universo de segurança, que é muito específico.

Após muitos testes, estabelecemos a combinação de duas metodologias que se mostraram efetivas até agora:

  1. Redes neurais, especificamente deep learning e redes long short-term memory (LSTM)
  2. Combinar a saída de seis algoritmos de classificação escolhidos com precisão.

Não está muito claro? Imagine que você tem um arquivo executável suspeito. O Áugure primeiro emulará o comportamento e executará uma análise básica de DNA. Em seguida, o Áugure usará as informações coletadas para extrair características do arquivo, observar quais processos deseja executar e analisar o mosaico de DNA para decidir em qual categoria pode ser encaixado: limpo, potencialmente indesejado ou malicioso.

Neste ponto, é importante explicar que, ao contrário de alguns fornecedores que afirmam não precisar de desempacotar amostras, analisar comportamento ou emular, acreditamos que isso é crucial para extrair dados corretamente para a aprendizagem automática. Caso contrário, quando os dados estão compactados ou criptografados, é apenas uma tentativa de classificar o ruído.

O grupo de algoritmos de classificação possui duas configurações possíveis: a mais agressiva rotulará uma amostra como maliciosa se a maioria dos seis algoritmos indicarem como tal. Isso é útil principalmente para os profissionais de TI que usam o ESET Enterprise Inspector, pois pode marcar tudo que for suspeito e deixar a avaliação final para um administrador competente.

A abordagem mais moderada, ou mais conservadora, declara que uma amostra está limpa se pelo menos um dos seis algoritmos chegar a tal conclusão. Isso é útil para sistemas de propósito geral com uma visão geral menos especializada.

Sabemos que o visual é a chave para tudo hoje em dia, então, para complementar essas explicações, elaboramos um esquema:

Para superar tudo, encontramos uma apresentação do Facebook descrevendo sua solução de machine learning e se parece muito com a arquitetura do Áugure, pois visa combinar o melhor dos algoritmos de classificação e as redes neurais.

Ok, então, vamos nos afastar da teoria e analisar os resultados que a abordagem do machine learning da ESET tem tido no mundo real. Por exemplo, aplicada aos recentes ataques de malware que usaram o exploit EternalBlue para propagar tanto o ransomware WannaCryptor como para famílias que minavam criptomoedas.

O que é mais interessante: também fizemos esse teste com um modelo do Áugure de um mês da antiguidade que não poderia ter encontrado essas famílias de malware anteriormente. Isso significa que as detecções foram baseadas unicamente nas informações obtidas do treinamento. E adivinha? Ambos foram rotulados corretamente como maliciosos.

30 anos de progresso e inovação em segurança de TI nos ensinaram que algumas coisas não possuem uma solução fácil, especialmente no ciberespaço, onde a mudança chega rapidamente e o campo de jogo pode mudar em questão de minutos. A aprendizagem automática, mesmo quando embrulhado em estratégias de marketing, não conseguirá mudar essa realidade em pouco tempo.

Portanto, acreditamos que nem mesmo a melhor aprendizagem automática pode substituir pesquisadores qualificados e experientes, aqueles que construíram seus cimentos e os que continuarão melhorando no futuro. Estamos orgulhosos de dizer que muitos desses indivíduos talentosos trabalham na ESET, ajudando a proteger os usuários de ameaças futuras.

Confira toda a série:

  1. Editorial: combatendo a “pós-verdade” com realidade no âmbito da cibersegurança
  2. Não compre o elixir da juventude: machine learning não é uma solução mágica
  3. Quando a publicidade bate de frente com a realidade: a verdade sobre o machine learning
  4. A aprendizagem automática e as matemáticas não podem vencer aos cibercriminosos
  5. Uma única tecnologia de proteção significa apenas uma barreira para os cibercriminosos
  6. Os falsos positivos podem ser mais caros do que uma infecção por malware
  7. As atualizações de segurança nunca deixarão de ser importantes
  8. Machine learning na ESET: o caminho para o Áugure

Texto escrito com a colaboração de Jakub Debski & Peter Kosinar.

Discussão