Hubo un tiempo en que podíamos creer todo lo que veíamos y oíamos. Por desgracia, es probable que esos días ya no vuelvan. La IA Generativa (GenAI) democratizó la creación de audio y vídeo falsos, hasta el punto de que generar un clip fabricado es tan fácil como pulsar un botón o dos. Esto es una mala noticia para todos, incluidas las empresas.
Las deepfakes pueden ser usadas de varias formas: desde eludir autenticaciones y controles del tipo knowYourClient, hasta infliarse en organizaciones creando un candidato falso y sintético para procesos de seleeción de personal . Sin embargo, podría decirse que la mayor amenaza que plantaan es el fraude financiero/transferencias bancarias y el secuestro de cuentas de ejecutivos.
El Gobierno británico afirma que el año pasado se compartieron hasta 8 millones de clips falsos, frente a los 500 mil que habían sido compartidos en 2023. La cifra real puede ser mucho mayor y, así las cosas, las organizaciones tienden a subestimar esta amenaza.
Cómo funcionan los ataques
Como también ha demostrado un experimento de Jake Moore, Global Security Advisor de ESET, nunca ha sido tan fácil lanzar un ataque de audio deepfake. Todo lo que se requiere es un clip corto de la víctima para ser suplantado. GenAI hará el resto. Así es como podría proceder un ataque
- Un atacante selecciona a la persona que va a suplantar. Puede ser un CEO, un CFO o incluso un proveedor.
- Encuentra una muestra de audio en Internet, lo que resulta bastante fácil para ejecutivos de alto nivel que hablan en público con regularidad. Puede proceder de una cuenta en las redes sociales, de una convocatoria de beneficios, de una entrevista en vídeo o televisión o de cualquier otra fuente. Unos segundos de grabación deberían bastar.
- Seleccionan a la persona a la que van a llamar. Para ello, puede ser necesario realizar una investigación documental, normalmente en LinkedIn, en busca de personal del servicio de asistencia informática o miembros del equipo financiero.
- Pueden llamar directamente a la persona o enviar un correo electrónico por adelantado: por ejemplo, un director general que solicita una transferencia de dinero urgente, una solicitud de restablecimiento de contraseña o autenticación multifactor (MFA), o un proveedor que exige el pago de una factura vencida.
- Llaman al objetivo preseleccionado, utilizando audio deepfake generado por GenAI para hacerse pasar por el CEO/proveedor. Dependiendo de la herramienta, pueden ceñirse a un discurso preestablecido o utilizar un método más sofisticado de "voz a voz" en el que la voz del atacante se traduce casi en tiempo real a la de su víctima.
Oír para creer
Este tipo de ataque es cada vez más barato, sencillo y convincente. Algunas herramientas son capaces incluso de insertar ruido de fondo, pausas y tartamudeos para que la voz suplantada resulte más creíble. Cada vez imitan mejor los ritmos, las inflexiones y los tics verbales propios de cada orador. Y cuando un ataque se lanza por teléfono, los fallos relacionados con la IA pueden ser más difíciles de detectar para quien atiende.
Los atacantes también pueden utilizar tácticas de ingeniería social, como presionar a que la persona responda urgentemente a su petición, con el fin de lograr sus objetivos. Si a esto añadimos que a menudo se hacen pasar por un alto ejecutivo, es fácil ver por qué algunas víctimas son engañadas. ¿Quién querría caerle mal al director general?
Dicho esto, hay formas de detectar a un impostor. Dependiendo de lo sofisticada que sea la GenAI que están utilizando, puede ser posible discernir:
- Un ritmo antinatural en el discurso del orador
- Un tono emocional antinaturalmente plano en la voz del orador
- Respiración antinatural o incluso frases sin respiración
- Un sonido inusualmente robótico (cuando se utilizan herramientas menos avanzadas)
- Ruido de fondo extrañamente ausente o demasiado uniforme
Hora de contraatacar
La razón por la que los autores de las amenazas dedican cada vez más tiempo a este tipo de estafas es sencilla: las posibles recompensas que ofrecen. Las historias con moraleja no dejan de acumularse. Uno de los mayores errores se produjo en 2020, cuando se engañó a un empleado de una empresa de los Emiratos Árabes Unidos haciéndole creer que su director había llamado para solicitar una transferencia de fondos de 35 millones de dólares para una operación de fusión y adquisición.
Dado que la tecnología deepfake ha mejorado significativamente en los seis años transcurridos desde entonces, vale la pena revisar algunos pasos clave que se pueden tomar para minimizar los riesgos de que esto ocurra.
Hay que empezar por la formación y concienciación de los empleados. Estos programas deben actualizarse para incluir simulaciones de audio deepfake que garanticen que el personal sabe qué esperar, qué está en juego y cómo actuar. Se les debe enseñar a detectar los signos reveladores de la ingeniería social y los escenarios típicos de deepfake, como los descritos anteriormente. Deben realizarse ejercicios de red team para comprobar si los empleados asimilan bien el proceso correcto:
- Verificación fuera de banda de cualquier solicitud telefónica, es decir, utilizar cuentas de mensajería corporativas para comprobar con el remitente de forma independiente
- Dos personas que firmen las transferencias financieras importantes o los cambios en los datos bancarios de los proveedores
- Contraseñas o preguntas acordadas previamente que los ejecutivos deban responder para demostrar que son quienes dicen ser por teléfono
La tecnología también puede ayudar. Existen herramientas de detección que comprueban diversos parámetros para detectar la presencia de una voz sintética. Más difícil de poner en práctica, otra forma de actuar sería limitar las oportunidades de que los actores de amenazas se hagan con el audio, limitando las apariciones públicas de los ejecutivos.
Personas, procesos y tecnología
Sin embargo, la conclusión es que las falsificaciones son sencillas y su producción cuesta poco. Dadas las enormes sumas que pueden obtener los estafadores, es poco probable que veamos pronto el final de las estafas de clonación de voz. Por lo tanto, la mejor opción que tiene su organización para mitigar el riesgo es un triple enfoque basado en las personas, los procesos y la tecnología.
Para que se adapte a medida que avanza la innovación en IA, es importante que sea revisado periódicamente. El nuevo panorama del ciberfraude exige una atención constante.




