Expertenmeinung: Malware in synthetischen Genomen codiert

Als ich gegen Ende des Jahres 2013 mit meinen Untersuchungen zu diesem interessanten Thema begann, spürte ich eine gewisse Skepsis von Seiten der wissenschaftlichen Gemeinschaft. Das war vor allem dann der Fall, wenn Menschen mit verschiedenen Hintergründen interdisziplinär an neuen Wegen von Kompromittierungen in der IT-Sicherheit forschen.

Ende des Jahres 2015 präsentierte ich die Ergebnisse meiner Masterarbeit (in IT-Sicherheit) „Malware, die Genome infiziert“. Damals bemerkte auch ich die Skepsis der anderen. Während der Revision meiner Arbeit brandmarkte ein Professor für Molekularbiologie sie als „gelehrten Unsinn“. Seiner Meinung nach war es ganz offensichtlich, dass DNA-Sequenzen für boshafte Zwecke manipuliert werden können, und dass es die Pflicht des Forschenden sei, zu überprüfen, ob der sequenzierte Teil mit der ursprünglichen Sequenz übereinstimmt. Diesem Standpunkt widerspreche ich nicht, aber abgesehen von der jenseits sich für die Sicherheit ergebenden Szenarien ist es schwierig zu erklären, wie leicht Überprüfungen fehlschlugen, wenn der eigentliche Fehler in der Software liegt. Die alleinige Tatsache dessen, rechtfertigte meine weiteren Recherchen.

Natürlich vertrat er seine Ansichten nicht ohne Grund. Meine biologischen Szenarien waren bisher bloß theoretischer Natur. Ich allein verfügte nicht über die Ressourcen ein modifiziertes Genom zu synthetisieren bzw. zu sequenzieren und damit einen echten Fall zu demonstrieren. Ohne diese Möglichkeit war die Machbarkeit nur schwer zu verifizieren. Ein mit bösartigen Informationen infiziertes Genom sollte so synthetisiert und in ein biologisches Milieu überführt werden, dass es eine beliebige Sequenz innehabend, später übersetzt, das anvisierte System kompromittiert. Außerdem hat das noch niemand in „freier Wildbahn“ gesehen, was aus technischer Sicht allerdings nicht bedeutet, dass es nicht eines Tages passieren könnte.

Und dann kam dieser Tag…

Professor Tadayoshi Kohno und sein Forscherteam der Universität Washington demonstrierten DNA-Sequencing wie eben beschrieben, in ihrem Paper von vorletzter Woche: “Computer Security, Privacy, and DNA Sequencing: Compromising Computers with Synthesized DNA, Privacy Leaks, and More.”

Kohno und sein Team erforschten das Thema eingehend und intensiv und setzen jenes theoretische Szenario in die Praxis um, welches auch mich beschäftigte. Bösartige modifizierte DNA konnte synthetisiert und sequenziert werden, was eine Ausführung von beliebigen Code zur Folge hatte. In ihrem speziellen Fall erschufen sie eine Schwachstelle in einer Anwendung namens fqzcomp und demonstrierten die Ausführbarkeit des Codes.

Dafür gibt es allerdings viele verschiedene Möglichkeiten. In meiner Masterarbeit beispielsweise benutzte ich ein einfaches Skript, welches die FASTA-Datei (Enthält Informationen vom Genom und verwendet die vier Nukleotide Adenin, Cytosin, Thymin und Guanin) analysierte, um den "Payload" zu entschlüsseln und auszuführen. Die Lösung war zugegebener Maßen nicht allzu elegant und setzte die Verwundbarkeit des anvisierten Zieles voraus, um das Skript auszuführen. Deswegen war ich auch nicht vollkommen zufrieden, aber ich konnte beweisen, worum es mir ging. Um den String in eine Sequenz zu übersetzen, war ein ähnlicher Prozess notwendig, wie der biologische, wobei Basentripletts aus Adenin, Cytosin, Thymin und Guanin in Codone gruppiert wurden. (Diese stellen Aminosäuren dar, die dann in Proteine übersetzt werden.)

Ein Basentriplett kann beispielsweise als ein Buchstabe eines "versteckten" Alphabets dargestellt werden. In diesem Fall wurde ASCII gebraucht und die Codierung nahm folgendes Format an: ACA = “A”, ACC = “B”, ACG = “C” und so weiter (es gibt natürlich viele andere Wege der Codierung; das ist nur ein Beispiel). Aus den Basentripletts lassen sich 4³ Kombinationen erzeugen. Damit kann das gesamte Alphabet in Groß- und Kleinbuchstaben sowie Nummern und Sonderzeichen abgebildet werden. Selbst dann sind die 64 Möglichkeiten noch nicht ausgereizt. Dieses System erlaubt das "Schreiben" von beliebigem Code in ein Genom. Natürlich könnte man auch Zitate schreiben, wie es J. Craig Venter tat, als er eine Zelle erschuf, die von einem synthetisierten Genom kontrolliert wurde – oder man pflanzt Malware in das Genom oder eben beliebigen Code.

Welche Auswirkungen können diese Methoden verursachen?

Im Folgenden bringe ich einen Auszug meiner Masterarbeit ein, der potentielle Szenarien zur Diskussion stellt.

Die Auswirkungen solcher Attacken können wie folgt klassifiziert werden: digital, digital-biologisch und rein biologisch.

Digitale Auswirkungen:

Der Fakt, dass böswilliger Payload in DNA-Sequenzen injiziert werden kann, bedeutet nicht, dass diese Methode eine Kompromittierung verschlimmert. Allerdings erschwert es die Komplexität der Identifizierung und der nachträglichen Erkennung durch herkömmliche Schutzmethoden wie Hashes, welche die Integrität und die Aufklärung schädlicher Dateien unterstützen. Aus diesem Grund wird gezeigt, wie das Szenario ablaufen könnte, um vor einer möglichen Verwendung von Genom-Sequenzen als neuer Angriffsvektor zu warnen.

Digital-biologische Auswirkungen:

Für den Fall, dass eine Genome-Sequenz bösartig modifiziert und ein Genom erfolgreich übersetzt wird, könnte ein Schadcode in einer Zelle verweilen, ohne sie zu beeinflussen. Es sollte richtiggestellt werden, dass dies vom Verfasser aber nicht bestätigt wurde, da es außerhalb der näheren Betrachtungen dieser Arbeit liegt. Wenn das allerdings geschehen würde, trüge der Organismus schädlichen Code. Seine DNA könnte in einem Labor übersetzt und in eine Sequenz-Datei umgewandelt werden, die wiederum einen Teil eines Schadcodes beinhaltet. Ein Angreifer würde dann nur noch Gebrauch von der Extraktion und der Ausführungen machen, um eine digitale Attacke zu aktivieren. (Dieser Punkt ist mit der Demonstration des Teams um Kohno von der University of Washington vergleichbar.)

Biologische Auswirkungen:

In diesem Fall besäße eine böswillig geneigte Person die Fähigkeit, eine Sequenz-Mutation hervorzurufen, welche keine Auswirkungen auf ein System hat, aber funktionelle Probleme auf biologischer Ebene mit sich bringt, insofern keine adäquaten Kontrollen bei der Synthese greifen würden. (Die Realisierbarkeit dieses rein hypothetischen Falls ist sehr schwer zu verifizieren.)

Wie wir in Professor Kohnos Veröffentlichung vorletzter Woche feststellten, ist das zweite Szenario bereits adressiert und demonstriert worden. Unter bestimmten Umständen ist es also realisierbar. Zweifelsfrei bleiben wir aber weit von einer realen, unmittelbaren Bedrohung entfernt. Allerdings ist es nun nicht mehr ein bloßes theoretisches Problem, wie in vergangenen Vorstellungen.

Könnte sich ein mit Malware infiziertes Bakterium in Zukunft selbst replizieren?

Für den hypothetischen Fall, dass ein Stück modifizierte DNA erfolgreich erzeugt wird, könnte ein bösartiger Code einen Teil einer synthetischen Zelle bilden, die in der Lage ist, sich selbständig in der biologischen Umgebung zu replizieren. Selbst Malware könnte sogar biochemisch verbreitet werden, insofern ein Bakterium alle notwendigen Eigenschaften für eine Reproduktion mitbringt. Darüber hinaus würde der Schadcode seine Trägerzelle nicht beeinträchtigen, sondern sie lediglich zum Überleben brauchen – zumindest bis zu dem Punkt bei dem das Genom im Labor in seine digitale Form übersetzt wird, um sich auf einem Computer oder anderem Gerät zu aktivieren. Allerdings ist die Implementierung des Codes an der richtigen Stelle eine komplexe Angelegenheit, wenn eine exakte biologische Verbreitung stattfinden soll. Hier sind drei Milieus, in denen ein boshafter String eingefügt werden kann:

Irrelevantes Milieu: Der Schadcode passiert einen Bereich von geringer Bedeutung; es ist kein signifikanter Einfluss zu spüren.
Milieu des Gens: Wenn der Schadcode in eine Gen-Sequenz vordringt und Mutationen hervorruft, entstehen zwei Möglichkeiten. 1. Die Mutation ist tödlich und der Code verschwindet aus der Natur ohne sich zu verbreiten. 2. Die Mutation ist vorteilig oder neutral. Der zusätzliche Code beeinflusst eine Verbreitung nicht.
Regulatorisches Milieu: In diesem Fall kann das Gen wie im 2. Szenario verändert werden, oder es passiert nichts, wie im ersten Fall.

Produziert der zusätzliche Schadcode keine tödliche Mutation, könnten die Malware und die synthetische Trägerzelle eine Art "kybernetischen Kommensalismus" bilden. Diese Form der Interaktion ist vergleichbar mit einer Symbiose, bei der "A" partizipiert und "B" dadurch weder Vor- noch Nachteile erfährt.

In den Forschungen der University of Washington wird mehr Wert auf die Sequenzierung eines DNA-Stücks ohne biologisches Angriffsziel gelegt. Dennoch ist [mir] nicht ganz klar, ob das wegen der Machbarkeit oder Komplexität außen vorgelassen wurde. Obwohl alles sehr nach Science-Fiktion klingt, glaube ich, dass diese Betrachtungen zukünftig noch stärker in Erwägung gezogen werden könnten.

Erkennung von bösartigen Strings

Wenn die Information in einer Sequenz codiert ist, könnte die Erkennung schädlicher Strings eine komplizierte Prozedur werden. Denn unabhängig davon, ob eine Anwendung in der Lage ist, zu identifizieren, ob etwas zur Struktur der Sequenz gehört oder nicht, ist das insgesamt keine triviale Angelegenheit. Besonders dann nicht, wenn die fragliche DNA ein biologisches Angriffsziel hat (und noch nicht veröffentlicht ist) oder zur Informationsspeicherung oder für andere Zwecke verwendet wird.

Schlussfolgerungen

Es ist interessant zu sehen, wie dieses Thema in den Medien und möglicherweise auch bei anderen Forschern nun endlich mehr Aufmerksamkeit erlangt, dank Tadayoshi Kohno und seinem Team. Abgesehen von der mangelnden Eleganz – exklusive Schaffung einer Schwachstelle in einer Anwendung – können wir beobachten, dass einer der wichtigsten Punkte aus der Sicherheitsperspektive an Boden gewinnt. Die Vorstellung der Thematik trägt nun vielleicht dazu bei, dass sie größeren Studien unterworfen wird, um auch eine interdisziplinäre Diskussion zwischen IT und Bioinformatik-Spezialisten, Sicherheitsexperten, Herstellern, Regierungen und Spezialisten der molekular und synthetischen Biologie zu entfachen.

Unter Berücksichtigung der enormen Geschwindigkeit mit der Sequenzierungsvorrichtungen entwickelt werden und dem drastischen Kostenrückgang, wird meiner Meinung nach die erfolgreiche Sicherung von DNA-Sequenzen viel mehr Arbeitseinsatz erfordern, als momentan von Forschungsgruppen und Enthusiasten bewältigt werden kann. Bedauerlicherweise werden wir ohne realitätsnahe Fälle oder wirtschaftliche Verluste bloß sensationsaufgeladene Artikel in Presse lesen, welche die "Genom-Alypse" prophezeien.

Es stimmt, dass die Realisierbarkeit erst auf unterster Stufe zu sein scheint und dass es deshalb auch keinen Grund gibt, alarmiert zu sein. Allerdings erinnere ich daran, dass die IT-Sicherheit immer gut beraten war, eine Sicherheitslösung vor einem potentiellen Angriff parat zu haben und nicht erst danach.

Haftungsausschluss: Alles, was hier vorgestellt wird, erhebt keinen Anspruch auf Vollständigkeit und kann Fehler enthalten, bedenkt man den interdisziplinären Charakter der Forschung und meinen Hintergrund als Ingenieur – und nicht als Biologe. Deshalb sind Kommentare, Anregungen und Verbesserungen willkommen, um dieses faszinierende Thema vertiefend zu erweitern.