Não compre o elixir da juventude: machine learning não é uma solução mágica

Se alguém falasse para você que possui um elixir mágico que cura todas as suas doenças ou feridas e pode te tornar jovem de novo, você acreditaria nisso? Não importa o quão medieval esse truque de marketing possa parecer, mesmo no século XXI baseado em dados, essa estratégia ainda é usada.

Já não se trata de vendedores ambulantes oferecendo o elixir da juventude. Eles foram substituídos por uma série de empresas de cibersegurança que acham que possuem a "pós-verdade", oferecendo misteriosas soluções de inteligência artificial (AI) e machine learning (ML). Falam para você que essas tecnologias manterão o seu negócio a salvo de qualquer malware e de outros tipos de ameaças, independentemente se já foram vistas anteriormente ou se são completamente novas. No entanto, essas técnicas são muito complicadas para explicar ou entender corretamente; são quase mágicas.

Aqui no planeta Terra, podemos relatar que não há nenhuma magia por trás da inteligência artificial ou da aprendizagem automática. A AI existe há mais de 60 anos e representa o ideal de uma máquina inteligente que pode aprender e tomar decisões de forma independente, baseando-se apenas em insumos do seu ambiente, sem qualquer supervisão humana.

Um pouco mais atrás desse sonho (ainda tão inalcançável da AI) está a aprendizagem automática ou machine learning, um campo das ciências da computação que dá aos computadores a capacidade de encontrar padrões em grandes quantidades de dados, classificando-os e agindo sobre as descobertas. O conceito pode ser um pouco mais recente, mas está presente no âmbito da cibersegurança desde os anos 90.

Se você se sente perdido e não consegue compreender isso, basta lembrar quando o Facebook encontrou o seu rosto na foto em meio a uma multidão: isso foi machine learning. E quando o Netflix te sugeriu um grande filme? Também.

Na cibersegurança, o machine learning geralmente refere-se a uma das tecnologias incorporadas a uma solução que foi alimentada com grandes quantidades de amostras limpas e maliciosas corretamente rotuladas, e aprendeu a diferença. Graças a esse treinamento, também conhecido como aprendizagem automática supervisionada, é capaz de analisar e identificar a maioria das ameaças potenciais para os usuários e agir proativamente para reduzir o seu impacto.

A automação deste processo torna a solução de segurança mais rápida e ajuda aos especialistas humanos a lidar com o crescimento exponencial do número de amostras que aparecem todos os dias. Os algoritmos que não têm esse treinamento, que se enquadram na categoria de aprendizagem automática não supervisionada, são praticamente inúteis para a segurança. O motivo é que classificam os dados em suas próprias categorias, que não necessariamente distinguem entre elementos limpos e malware, e são mais adequadas para encontrar semelhanças ou anomalias no conjunto de dados que podem ser invisíveis ao olho humano.

Na ESET, um fabricante do ramo da cibersegurança já estabelecido e com quase três décadas de experiência, temos aplicado a aprendizagem automática supervisionada durante anos; chamamos isso de "detecção automatizada".

Para manter nossas taxas de detecção altas e nossos falsos positivos baixos, uma experiente equipe de supervisores humanos avalia os elementos que são muito divergentes de outras amostras e, portanto, difícil de rotular para o machine learning. Essa abordagem nos permite evitar as armadilhas dos falsos positivos ou erros que possam ocorrer no caminho para um algoritmo refinado, que funcione bem com outras tecnologias de proteção sob o guarda-chuva das nossas soluções.

Assim, para encerrar, não há mágica no machine learning. Na verdade, é uma tecnologia bem estabelecida que, sob supervisão humana, aprende a extrair recursos e a encontrar padrões específicos em grandes quantidades de dados maliciosos e limpos, e que nos ajuda a proteger milhões de usuários da ESET em todo o mundo.

Lembre-se que nos próximos dias você poderá ler mais sobre esta série: