Machine Learning bei ESET: Was ist Augur und was kann die Engine?

Mit unserem letzten Post zum Thema Machine Learning schließen wir die Serie aus insgesamt acht Artikeln. Trotz der umfassenden Artikel haben unsere Analysen gerade einmal an der Oberfläche des Potentials von Machine Learning in der Cyber Security gekratzt. Allerdings sollten unsere Leser nun besser in der Lage sein, Fakten von Fiktion und Marketing von tatsächlichen Funktionen zu unterscheiden. Im letzten Beitrag möchten wir hinter die Kulissen von ESETs Cyber Security blicken und uns genauer die Machine Learning Skills ansehen.

ESET-Experten beschäftigen sich schon seit mehr als 20 Jahren mit Machine Learning und neuronalen Netzwerken. Davon partizipieren ESET Produkte seit 1997. Seitdem gibt es zahlreiche interne Projekte zur Automatisierung von Sicherheitsanalysen. Diese helfen uns, die virtuelle Welt in gut, böse und unwillkommen zu kategorisieren (letzteres stellt einen Graubereich dar, weil PUA = potentielle unerwünschte Anwendungen nicht immer bösartig sind, aber nerven können).

Aus früheren Bemühungen entstand ein automatisiertes Expertensystem, das für eine Massenverarbeitung ausgelegt war. Im Jahr 2016 war das System noch ziemlich schlicht, half ESET aber schon, den wachsenden Teil von Samples zu verarbeiten und die Arbeitsbelastung der Erkennungsingenieure zu senken. Im Laufe der Jahre wurden die Fähigkeiten des Systems perfektioniert. Heute ist es ein essentieller Bestandteil der Technologie, die für die Sortierung und Klassifizierung von hunderttausenden Malware-Samples verantwortlich ist. Quellen für Malware-Samples sind das weltweite ESET LiveGrid®, die Sicherheits-Feeds und der laufende Austausch mit anderen Sicherheitssoftware-Anbietern.

Ein weiteres Machine Learning Projekt läuft seit 2012 bei ESET und platziert alle analysierten Malware-Samples auf der "Cyber Security Map" und hebt diejenigen hervor, die besondere Aufmerksamkeit erfordern. Interessanterweise war es genau dieses System, das im WannaCryptor-Fall einen tollen Job gemacht hat: Schon sehr früh wurde ESET auf die sich rasant ausbreitende Ransomware aufmerksam. Trotz der Erkennung des EternalBlue-Exploits hat das System zusätzlich dazu beigetragen, dass ESET weitere Untersuchungen vorgenommen hat, um den Schutz ihrer Nutzer weiter zu verbessern.

Allerdings ist das Machine Learning eine knifflige Angelegenheit und nicht alle Bemühungen von ESET verliefen nach Plan. Ältere Projekte konzentrierten sich auf die Automatisierung der Schaffung von breiteren „DNA-Erkennungen“ aus früheren bekannten Entdeckungen. Damit sollten URL-Reputationen bestimmt oder der „nächstgelegene Nachbar“ gefunden werden. Letztendlich wurden diese durch andere, effektivere Mittel eingeholt oder durch deren Weiterentwicklungen ersetzt.

Insgesamt kann ESET auf einen reichen Erfahrungsschatz zurückblicken, welchen sich das Unternehmen Stück für Stück erarbeitete. Deshalb kann ESET heute eine ausgereifte Antivirensoftware anbieten, die auf Machine Learning in der Cloud zurückgreift.

Augur – ESETs Machine Learning Beast

Bei ESET liebt man alte Geschichte – das Unternehmen selbst ist nach einer ägyptischen Göttin benannt. Von daher ist es auch nicht verwunderlich, dass selbst die Machine Learning Engine einen Namen aus der alten Geschichte trägt. Im antiken Rom bezeichnete ein Augur einen römischen Beamten, der natürliche Zeichen beobachtete und diese als Hinweis auf göttliche Zustimmung oder Missbilligung in Bezug auf eine vorgesehene Handlung interpretierte. Die Analogie zur Cyber Security ist leicht zu erkennen. Im Gegensatz zur Geheimlehre der Auguren basieren die Entscheidungen der ESET Machine Learning Engine aber auf Wissenschaft, Mathematik und einem weiten Erfahrungshorizont.

Betrachten wir nun den technischen Teil. ESETs Augur Machine Learning Engine wird durch die drei folgenden Hauptfaktoren verkörpert:

Durch das Aufkommen von Big Data und billiger Hardware wurde das maschinelle Lernen erschwinglicher - sei es für medizinische Zwecke, selbstfahrende Autos oder für die Verbesserung der Erkennungen in der Cyber Security.
Die wachsende Popularität von Machine Learning Algorithmen und der dazugehörigen Wissenschaft führten zu ihrer breiten technischen Anwendung und Verfügbarkeit für jeden, der sie implementierte.
Schon drei Jahrzehnte führt ESET den Kampf gegen schwarze Schafe und ihre „Produkte“. ESET hat sich eine Art moderne „Bibliothek von Alexandria“ für Malware gebaut. Diese umfangreiche und gut organisierte Datenbank enthält Millionen von extrahierten Features und „DNA-Gene“ von allem, was ESET in der Vergangenheit analysiert hat. Diese „Bibliothek“ bietet ein großartiges Fundament für einen sorgfältigen ausgewählten Mix um Augur zu trainieren.

Allerdings brachte der Aufschwung durch die drei Faktoren auch einige Herausforderungen mit sich. ESET musste die besten Algorithmen und Ansätze auswählen, da nicht alles Maschinenlernen auf das hochspezifische Cyber Security Universum anwendbar ist.

Nach vielen Tests hat sich ESET darauf geeinigt, zwei bisher entwickelte Methoden zu kombinieren:

Neuronale Netzwerke für spezielles tiefgehendes Lernen und ein langes Kurzzeitgedächtnis
Konsolidierter Output von sechs genau gewählten Klassifikationsalgorithmen

Hier noch einmal verständlicher: Wir stellen uns eine verdächtige ausführbare Datei vor. Augur wird zunächst sein Verhalten emulieren und eine grundlegende „DNA-Analyse“ durchführen. Dann wird es die gesammelten Informationen verwenden, um numerische Features aus der Datei zu extrahieren. Diese dienen zur Aufdeckung der Prozesse, welche die Datei ausführen will. Anhand des DNA-Mosaiks wird dann entschieden, in welche Kategorie sie gehört – sauber, potentiell unerwünscht oder bösartig. An dieser Stelle müssen wir erwähnen, dass wir es im Gegensatz zu anderen Anbietern sehr wichtig finden, die Datei zu entpacken. Nur auf diese Weise kann Augur Informationen für seinen Machine Learning Algorithmus extrahieren. Andernfalls - wenn Daten komprimiert oder verschlüsselt sind - es ist nur ein Versuch, Rauschen zu klassifizieren.

Die Gruppe der Klassifizierungsalgorithmen hat zwei mögliche Setups:

Ein aggressives Sample wird als bösartig eingestuft, wenn die Mehrzahl der sechs Algorithmen es als schädlich einstufen. Das ist vor allem für IT-Mitarbeiter mit ESET Enterprise Inspector nützlich, da sie alles als verdächtig markieren können, aber die endgültige Auswertung einem kompetenten Admin überlassen können.

Der mildere oder konservativere Ansatz deklariert ein Sample sauber, wenn mindestens einer der sechs Algorithmen zu einer solchen Schlussfolgerung kommt. Das ist für „Allzwecksysteme“ mit weniger Experteneinsicht sinnvoll.

Die folgende übersichtliche Grafik dient der Veranschaulichung:

Erwähnenswert ist eine Präsentation von Facebook, bei der sie ihren Machine Learning Algorithmus beschreiben. Die dargestellte Architektur ähnelt sehr stark der von Augur. Auch Facebook hat das Ziel, die besten Klassifikationsalgorithmen und neuronalen Netzwerke mit einander zu verknüpfen.

Verlassen wir nun die Theorie und widmen uns der realen Welt und den Ergebnissen, die ESETs Machine Learning Ansatz bei den jüngsten Malware-Angriffen (EternalBlue Exploit, WannaCryptor Ransomware und CoinMiner) erreichte. Abgesehen von ESETs Netzwerkerkennung und der effektiven Markierung durch die anderen Machine Learning Algorithmen, erkannte Augur Samples der angesprochenen Malware sofort als bösartig.

Darüber hinaus testete ESET ein Augur-Model, dass zum Zeitpunkt von EternalBlue und WannaCryptor schon mindestens einen Monat alt war. Dieser Algorithmus hatte also noch keine Samples der Malware gesehen. Trotzdem erkannte er die Malware als bösartig. Das bedeutet, dass die Erkennung allein auf der Grundlage der Trainings-Sets erfolgreich war.

30 Jahre Fortschritt und Innovation in der IT-Sicherheit haben ESET gelehrt, dass sich für einige Dinge keine leichte Lösung finden lässt. Vor allem das Cyberspace unterliegt einem ständigen Wechsel. Hier kann sich das Spielfeld in wenigen Minuten verändern. Reines Machine Learning kann das nicht aufhalten, selbst wenn die Verpackung vom Marketing noch so aufwendig inszeniert wurde. ESET glaubt nicht daran, dass Machine Learning jemals begabte und gut ausgebildete Forscher ersetzen wird. Immerhin sprechen wir hier über die Personen, die am Erfolg des Unternehmens maßgeblich beteiligt sind und es fortwährend innovieren. ESET ist stolz, sagen zu dürfen, dass viele talentierte Personen für das Unternehmen tätig sind und alle das Ziel verfolgen, User zukünftig besser vor Bedrohungen schützen zu wollen.

Die Serie im Überblick: