Die Wahrheit über Machine Learning: Wenn PR und Realität aufeinandertreffen

Machine Learning wird erfahrungsgemäß von den meisten postfaktischen Cyber Security Anbietern als größtes Verkaufsargument gegenüber „herkömmlichen“ Anbietern angepriesen. Aber Machine Learning – insofern es richtig betrieben wird – kommt nicht um Probleme und Einschränkungen umhin.

ESET investierte jahrelange Bemühungen in die Perfektionierung der automatischen Erkennung – ihr Name für Machine Learning im Cyber Security Kontext. Hierin liegen einige der größten Herausforderungen, die ESET bei der Umsetzung der Technologie in Business- und Heimlösungen beobachtete und letztendlich meisterte.

Machine Learning benötigt sehr viel Input. Dieses „Füttern“ setzt korrekt bezeichnete Informationen voraus. Für Cyber Security Anwendungen bedeutet das eine riesige Anhäufung von Samples, die sich in zwei Gruppen aufteilen – bösartig und sauber. ESET verbrachte etwa drei Jahrzehnte mit dem Sammeln von Daten, um die Machine Learning Systeme zu trainieren.

Woher nehmen also die erst kürzlich aufgetauchten postfaktischen Cyber Security Anbieter ihre Sample-Daten? Insofern diese nicht unethischer Weise auf Konkurrenzforschung zurückgreifen, gibt es keine plausible Möglichkeit eine genügend große und zuverlässige Datenbank in so kurzer Zeit aufzubauen.

Datenmüll rein – Datenmüll raus

[blockqoute_right]“Selbst wenn ein Machine Learning Algorithmus eine große Datenmenge verarbeitet hat, ist das keine Garantie dafür, dass er alle neu gefundenen Samples korrekt identifizieren kann.“[/blockqoute_right]

Selbst wenn ein Machine Learning Algorithmus eine große Datenmenge verarbeitet hat, ist das keine Garantie dafür, dass er alle neu gefundenen Samples korrekt identifizieren kann. Deshalb ist eine menschliche, manuelle Überprüfung erforderlich. Ohne diese, kann falscher Input zu einem Schneeball-Effekt führen und die Sicherheitslösung untergraben oder zu einem Totalausfall führen.

Die gleiche Situation ergibt sich, wenn der Algorithmus seinen eigenen Output als Input verwendet. Dadurch wird jeder Fehler noch verstärkt und multipliziert. Ein falsches Ergebnis, das in diese Schleife gerät, produziert nur noch mehr Datenmüll (beispielsweise eine Falsch-Positive-Erkennung oder das Nicht-Erkennen von Malware) und gibt das dann wiederum als Lösung aus.

Einige postfaktische Cyber Security Anbieter behaupten, dass ihre Machine Learning Algorithmen solche Szenarien nicht produzieren würden, da sie quasi jedes Sample von vorneherein als gut- oder bösartig identifizieren können – ohne, dass es zuvor schon einmal bestimmt wurde. Der Algorithmus „errechnet“ es einfach.

Doch schon der berühmte Mathematiker, Kryptoanalytiker und Informatiker Alan Turing (der Mann, der den Nazi-Enigma-Code während des 2. Weltkriegs im Bletchley Park in England knackte) zeigte, dass das unmöglich ist. Sogar eine makellose Maschine wäre nicht immer in der Lage zu entscheiden, ob ein zukünftiger, unbekannter Input zu unerwünschten Verhalten führen würde – In Turings Fall war es ein Input, der die Maschine in eine Endlosschleife führen sollte.

Fred Cohen, ein Informatiker, der die Definition eines Computervirus formulierte, ging noch einen Schritt weiter und zeigte, dass das so genannte „Halteproblem“ auch für die Cyber Security gilt. Es ist das, was er ein „unentscheidbares Problem“ nannte. Gemeint ist, ob man eine Vorhersage darüber treffen kann, inwiefern ein Programm bösartig handeln wird, wenn man nur sein äußeres Erscheinungsbild beobachtet. Das gleiche Problem entsteht für zukünftige Inputs oder spezifische Einstellungen, die ein Programm in eine bösartige Sphäre rücken könnten.

Wie trifft das auf den aktuellen Stand der Cyber Security zu? Wenn ein Anbieter nun behauptet, dass sein Machine Learning Algorithmus jedes Sample von vornherein kennzeichnet, ohne vorher untersucht zu haben, ob es sauber oder schädlich ist, dann wäre eine große Menge undifferenzierter Objekte präventiv geblockt. IT-Abteilungen würden dann mit Falsch-Positiven-Erkennungen überflutet werden.

Die andere Option wäre weniger Falsch-Positive-Erkennungen. Wenn allerdings nur eine Machine Learning Technologie zum Einsatz kommt, würden die Erkennungsraten der angepriesenen „Wunderwaffe“ weit weg von 100% liegen.

Das Cyber Security „Spiel“ kann sich jederzeit ändern

Das führt uns zu einer der erheblichsten Limitation für Anwendung der Machine Learning Technologie in der Cyber Security – dem intelligenten Gegner. Drei Jahrzehnte Erfahrung auf diesem Feld haben gezeigt, dass es ein niemals endendes Katz- und Mausspiel ist. ESET versucht seine Kunden stets vor Malware zu schützen. Dennoch gelingt es Angreifern hin und wieder einen Weg an der Antiviren Software vorbei zu finden. Dann aktualisiert ESET den Schutz und schließt die Schlupflöcher.

Die sich ständig ändernde Umwelt der Cyber Security Umgebung macht es unmöglich, eine universelle Sicherheitslösung zu erschaffen. Es sei denn, wir wollten die Existenz des Fortschritts der White- und Black-Hats verleugnen. ESET glaubt, dass wir uns an die tatsächliche, sich (weiter)entwickelnde Bedrohungslandschaft anpassen müssen – nicht aber an irgendein statisches imaginäres Äquivalent.

[blockqoute_right] „In der Cyber Security Welt spielen die Angreifer nach ihren eigenen Regeln. Sie können das gesamte Spielfeld ohne Vorwarnung ändern.“ [/blockqoute_right]

Manche argumentieren, dass Maschinen ziemlich smart geworden sind und sogar Menschen im Spiel besiegen können – Das zeigt Googles AlphaGo Algorithmus eindrücklich – und sie haben recht. Allerdings fokussieren diese Algorithmen nur einen sehr kleinen Bereich in dem sie wirklich stark sind. In der Cyber Security Welt spielen die Angreifer jedoch nach ihren eigenen Regeln. Sie können das gesamte Spielfeld ohne Vorwarnung ändern.

Um einen Gegner mit einer gewissen allgemeinen Intelligenz zu bekämpfen, braucht es eine Sicherheitslösung, die mindestens eine ähnlich starke künstliche Intelligenz besitzt. Diese muss sich an neue Umgebungen und Herausforderungen anpassen können. Das heutige Machine Learning allein ist zu schwach bzw. zu fokussiert, um sich dieser Aufgabe zu stellen.

Reine Machine Learning Sicherheitslösungen sind gegen bösartige „Spieler“ nicht gewappnet. Es genügt schon eine Attacke, um die Endpunkte eines Unternehmens zu kompromittieren und einer Armee aus Cyber-Kriminellen Zugang zum Unternehmensnetzwerk zu eröffnen. ESETs Sicherheitslösungen bieten daher mehr als nur Machine Learning. Die Produkten verwenden mehrere Technologien, die in der Regel bei den postfaktischen, unseriösen Anbietern fehlen. Durch hohe Erkennungsquoten und niedrige Falsch-Positiven-Erkennungsraten bleiben Gauner ausgesperrt.

Die Serie im Überblick:

  1. Prolog: Der Kampf um die Wahrheit in der Cyber Security
  2. Was ist Machine Learning und was künstliche Intelligenz?
  3. Häufige Missverständnisse bei Machine Learning und künstlicher Intelligenz
  4. Warum Machine Learning basierte Sicherheit intelligente Gegner nicht interessiert
  5. Warum eine Schutzschicht nicht genügt – auch wenn Machine Learning unterstützt
  6. Geister fangen: Die tatsächlichen Kosten der hohen Falsch-Positiv-Raten in der Cyber Security
  7. Wie Updates Antiviren Software stärkt
  8. Auch wir kennen Machine Learning und nutzen es seit Jahren

 

Mitwirkende: Jakub Debski & Peter Kosinar

Autor , ESET