Autrefois, voir ou entendre quelqu’un suffisait à établir sa crédibilité. Cette époque semble désormais révolue. Grâce à des outils d’IA accessibles au grand public, la création de contenus audio ou vidéo truqués, les fameux deepfakes, est devenue simple, rapide et peu coûteuse. Pour les cybercriminels, ces technologies offrent de nouvelles possibilités : contourner les procédures de vérification d’identité (Know Your Customer), prendre le contrôle de comptes, usurper l’identité de dirigeants ou encore commettre des fraudes financières sophistiquées. Les organisations qui sous-estiment cette menace s’exposent à de sérieux risques. 

Comment se déroule une attaque par clonage vocal ? 

Comme l’a démontré Jake Moore, expert mondial en cybersécurité chez ESET, il n’a jamais été aussi facile de lancer une attaque reposant sur une voix clonée par IA. Quelques secondes d’enregistrement suffisent désormais pour reproduire la voix d’une personne avec une fidélité impressionnante. 

Un scénario d’attaque typique peut se dérouler ainsi : 

  1. L’attaquant choisit sa cible à usurper, par exemple un PDG, un directeur financier ou un fournisseur de confiance.  

  1. Il récupère un échantillon audio de cette personne, souvent disponible publiquement sur les réseaux sociaux, dans des interviews, des conférences, des vidéos d’entreprise ou des appels aux investisseurs. Quelques secondes d’enregistrement peuvent suffire.  

  1. Il identifie ensuite la victime à contacter, généralement un employé du service informatique, des finances ou de l’administration, souvent repéré via LinkedIn ou d’autres sources publiques.  

  1. Il prépare son approche, parfois en envoyant un e-mail préalable évoquant une demande urgente : transfert d’argent, réinitialisation de mot de passe ou paiement d’une facture prétendument en retard.  

  1. Il passe enfin à l’action, en appelant la cible avec une voix générée par IA qui imite celle du dirigeant ou du fournisseur. Certains outils se contentent de lire un script préenregistré, tandis que les plus avancés permettent de transformer en temps réel la voix de l’attaquant en celle de la personne usurpée. 

Quand entendre ne suffit plus à croire 

Ces attaques deviennent chaque jour plus convaincantes. Les outils de clonage vocal modernes reproduisent non seulement la voix, mais aussi les pauses, les hésitations, le rythme de parole et même certains tics de langage. Certains ajoutent également des bruits de fond afin de rendre la conversation encore plus crédible. Dans le cadre d’un appel téléphonique, les imperfections de l’IA sont souvent plus difficiles à détecter, ce qui augmente considérablement les chances de succès des fraudeurs. Les cybercriminels s’appuient également sur des techniques classiques d’ingénierie sociale notamment créer un sentiment d’urgence ; invoquer une situation exceptionnelle ; exiger la confidentialité ; exploiter l’autorité d’un dirigeant ou d’une personnalité influente. Dans ces conditions, il est facile de comprendre pourquoi certains employés se laissent piéger. 

Cela dit, même si les technologies progressent rapidement, certains indices peuvent encore révéler l’utilisation d’une voix générée par IA : un rythme de parole artificiel ou irrégulier ; un manque d’émotion ou une intonation anormalement plate ; une respiration peu naturelle, voire absente ; un rendu légèrement robotique, notamment avec les outils les moins avancés ; un bruit de fond inhabituellement uniforme ou totalement absent. 

Comment se protéger ? 

Si les cybercriminels investissent autant dans ces techniques, c’est parce que les gains potentiels sont considérables. Il est donc essentiel pour les entreprises de renforcer leurs défenses. La première ligne de défense reste l’humain. Les programmes de sensibilisation doivent désormais intégrer des scénarios impliquant des deepfakes audio afin de préparer les employés à ce type de menace. Les collaborateurs doivent notamment apprendre à reconnaître les techniques d’ingénierie sociale ; identifier les situations à risque ; réagir correctement face à une demande inhabituelle ou urgente.  

D’autres mesures simples permettent de réduire considérablement les risques. Il s’agit notamment de vérifier toute demande sensible via un second canal de communication (e-mail professionnel, messagerie interne, etc.) ; exiger une double validation pour les virements importants ou les modifications des coordonnées bancaires des fournisseurs ; mettre en place des mots de passe, phrases secrètes ou questions de vérification connues uniquement des dirigeants et de leurs équipes.  

Par ailleurs, des solutions spécialisées permettent aujourd’hui d’analyser différents paramètres acoustiques afin de détecter la présence d’une voix synthétique. Une autre approche consiste à limiter la quantité d’enregistrements vocaux accessibles publiquement, notamment pour les dirigeants fréquemment exposés dans les médias ou lors d’événements publics. 

Une stratégie fondée sur les personnes, les processus et la technologie 

Les deepfakes vocaux sont simples à produire, peu coûteux et potentiellement très lucratifs pour les fraudeurs. Il est donc peu probable que ce type d’arnaque disparaisse dans un avenir proche. Pour réduire efficacement les risques, les entreprises doivent adopter une approche globale reposant sur trois piliers : les personnes, les processus et la technologie. Enfin, cette stratégie doit être régulièrement réévaluée afin de suivre l’évolution rapide des capacités de l’intelligence artificielle. Dans le nouveau paysage de la cybercriminalité, la vigilance doit être permanente.