Vor gar nicht allzu langer Zeit konnten wir noch glauben, was wir sahen und hörten. Doch dies ist wohl vorbei. Generative KI hat die Erstellung von gefälschten Audio- und Videoaufnahmen so weit vereinfacht, dass es kaum mehr als einen Knopfdruck braucht. Das ist eine schlechte Nachricht für alle und besonders für Unternehmen.
Betrüger nutzen solche Deepfakes bereits heute, um Identitätsüberprüfungen und Kontosicherungen zu umgehen. Staatlich geförderte Angreifer setzen sie ein, um sich als Stellenbewerber zu tarnen (mehr dazu hier). Noch gravierender sind jedoch gefälschte Überweisungsanfragen und die Übernahme von Konten leitender Mitarbeiter.
Wer diese Bedrohung unterschätzt, handelt fahrlässig. Die britische Regierung geht davon aus, dass im vergangenen Jahr bis zu acht Millionen synthetische Clips im Umlauf waren, nach nur 500.000 im Jahr 2023. Die tatsächliche Zahl dürfte noch weit höher liegen. Auch das Bundeskriminalamt warnt in seinem Cybercrime Lagebericht ausdrücklich vor dem zunehmenden Einsatz von KI durch Cyberkriminelle.
Wie solche Angriffe ablaufen
Ein Experiment des ESET Sicherheitsexperten Jake Moore hat gezeigt, wie erschreckend einfach ein Deepfake-Audioangriff auf ein Unternehmen in der Praxis ist. Alles, was ein Angreifer braucht, ist eine kurze Aufnahme der Stimme seines Opfers. Den Rest erledigt die KI. Ein typischer Angriff läuft so ab:
- Der Angreifer wählt eine Person aus, die er imitieren möchte. Das kann ein Vorstandsvorsitzender sein, ein Finanzchef oder auch ein Lieferant.
- Er sucht online nach einer Tonaufnahme dieser Person. Bei Führungskräften, die regelmäßig öffentlich auftreten, ist das kaum schwierig. Quellen sind zum Beispiel Social Media, Analystenkonferenzen oder Fernsehinterviews. Wenige Sekunden reichen aus.
- Er recherchiert sein Angriffsziel, oft auf LinkedIn, und sucht nach Mitarbeitenden im IT-Support oder in der Buchhaltung.
- Er bereitet den Angriff vor: entweder mit einem direkten Anruf oder einer vorbereitenden E-Mail, in der er zum Beispiel als vermeintlicher Vorstandschef eine dringende Überweisung ankündigt oder als Lieferant eine überfällige Rechnung anmahnt.
- Er ruft an und spielt dabei eine KI generierte Stimme ab, die exakt wie die imitierte Person klingt. Fortschrittlichere Tools wandeln seine eigene Stimme in Echtzeit in die seines Opfers um.
Hören heißt glauben, oder doch nicht?
Diese Angriffe werden billiger, einfacher und überzeugender. Manche Programme fügen der generierten Stimme gezielt Hintergrundgeräusche, Pausen oder kleine Versprecher hinzu, damit sie noch echter klingt. Rhythmus, Betonung und persönliche Sprachgewohnheiten werden immer präziser nachgeahmt. Und wenn der Anruf über das Telefon kommt, sind typische KI-Artefakte für das menschliche Ohr noch schwerer zu erkennen als in einem Video.
Dazu kommen klassische Manipulationstechniken: Zeitdruck, der Appell zur Geheimhaltung und die Autorität einer hochrangigen Führungskraft. Es ist gut nachvollziehbar, warum manche Mitarbeiter auf diesen Betrug hereinfallen. Niemand möchte dem Chef gegenüber als unkooperativ gelten.
Dennoch gibt es Warnsignale. Je nach Qualität des eingesetzten Programms lassen sich folgende Merkmale erkennen:
- Die Sprechweise klingt unnatürlich gleichmäßig oder roboterhaft.
- Der emotionale Tonfall wirkt flach und wenig lebendig.
- Das Atmen klingt merkwürdig oder fehlt ganz.
- Bei einfacheren Programmen klingt die Stimme deutlich maschinell.
- Hintergrundgeräusche fehlen völlig oder klingen zu gleichförmig.
Was Unternehmen jetzt tun können
Der Grund für den Boom dieser Attacken ist einfach: Der (finanzielle) Einsatz ist gering, der mögliche Gewinn enorm. Die Zahl der bekannten Fälle wächst stetig. Einer der spektakulärsten ereignete sich bereits 2020, als ein Mitarbeiter eines Unternehmens in den Vereinigten Arabischen Emiraten davon überzeugt wurde, sein Direktor habe per Telefon eine Überweisung von 35 Millionen US-Dollar für eine Unternehmenstransaktion angefordert. Da die Technologie seitdem erhebliche Fortschritte gemacht hat, ist es höchste Zeit für wirksame Gegenmaßnahmen.
Der wichtigste Ausgangspunkt sind Schulungen und Sensibilisierung. Trainingsprogramme sollten konkrete Deepfake-Simulationen einschließen, damit Mitarbeiter wissen, was auf sie zukommen kann und wie sie sich verhalten sollen. Sie sollten lernen, typische Manipulationsversuche zu erkennen. Regelmäßige Testübungen helfen dabei zu überprüfen, ob das Gelernte tatsächlich sitzt.
Darüber hinaus braucht es klare Prozesse. Folgende Maßnahmen sind empfehlenswert:
- Verifizierung über einen zweiten Kanal: Bei telefonischen Anfragen sollte die Echtheit immer über einen unabhängigen Weg bestätigt werden, zum Beispiel über das offizielle interne Kommunikationssystem.
- Vier-Augen-Prinzip: Große Überweisungen oder Änderungen von Bankverbindungen sollten immer von zwei Personen freigegeben werden.
- Vorab vereinbarte Codewörter: Führungskräfte sollten sich am Telefon mit einem zuvor festgelegten Passwort oder einer persönlichen Sicherheitsfrage ausweisen können.
Auch Technologie kann helfen. Es gibt bereits Erkennungsprogramme, die Audiodaten automatisch auf Merkmale synthetischer Stimmen prüfen. Wer noch weiter gehen möchte, kann die öffentlichen Auftritte von Führungskräften gezielt reduzieren, um Angreifern weniger Tonmaterial zur Verfügung zu stellen.
Menschen, Prozesse und Technologie gemeinsam denken
Die Realität ist nüchtern: Deepfakes sind günstig und schnell erstellt. Angesichts der möglichen Gewinne für Kriminelle wird diese Art von Betrug so schnell nicht verschwinden. Der beste Schutz für Unternehmen ist ein ganzheitlicher Ansatz, der Menschen, Prozesse und Technologie gleichermaßen einbezieht. Das Bundesamt für Sicherheit in der Informationstechnik empfiehlt in diesem Zusammenhang eine systematische Risikobetrachtung beim Einsatz von KI.
Ist ein solcher Plan einmal aufgestellt, sollte er regelmäßig überprüft und angepasst werden, denn KI entwickelt sich schnell weiter. Die neue Bedrohung durch KI-gestützten Betrug verlangt dauerhafte Aufmerksamkeit.






