PromptFix: cómo los atacantes manipulan la IA para vulnerar la seguridad

Puede sonar reiterativo, pero la Inteligencia Artificial cambió las reglas del juego en todos los ámbitos, y la ciberseguridad no escapa a esta afirmación. Al punto que puede ser un elemento clave en la prevención y detección de ciberataques y también una herramienta para potenciar acciones maliciosas. Pero cuidado, hay una tercera variable: que la IA sea engañada y sirva como vector para vulnerar a las víctimas. PromptFix es un ejemplo concreto de este riesgo, basado en una técnica conocida como prompt injection.

Básicamente, los actores maliciosos insertan instrucciones ocultas en contenido aparentemente legítimo para que la IA realice ciertas acciones sin que el usuario lo sepa ni tenga que intervenir. Por ejemplo, hacer clic en botones invisibles que simulan verificaciones, descargar archivos maliciosos o interactuar con enlaces fraudulentos.

A continuación, analizamos cómo funciona esta técnica, cuáles pueden ser las consecuencias para las víctimas, y de qué manera protegerse ante esta amenaza.

¿Qué es PromptFix?

PromptFix es una variante específica del prompt injection, diseñada para engañar a asistentes integrados en navegadores. Mediante instrucciones ocultas, logra que la IA interactúe con sitios web maliciosos o de phishing.

El término surge como evolución de la técnica ClickFix, que engaña a los usuarios para que hagan clic en verificaciones falsas y así ejecutar acciones maliciosas.

En esta nueva versión, el engaño no va dirigido al humano, sino al asistente de IA. El ataque se basa en inyectar instrucciones ocultas (prompts) en el contenido que la IA procesa. Así, la IA cree que está “solucionando” algo legítimo (por ejemplo, validar un CAPTCHA), cuando en realidad está cumpliendo órdenes maliciosas.

¿Cómo engañan a la Inteligencia Artificial?

Para que un ataque PromptFix sea efectivo, los cibercriminales ocultan instrucciones maliciosas en sitios web comprometidos o en contenido que controlan, incluso en redes sociales o plataformas públicas (comentarios en Reddit, publicaciones en Facebook).

Algunas técnicas comunes son:

- Ocultar instrucciones en texto invisible (por ejemplo, color blanco sobre fondo blanco) o en comentarios HTML.

- Incrustar texto oculto dentro de imágenes, diseñado para ser ignorado por humanos, pero interpretado por la IA.

- Utilizar esteganografía para ocultar información en archivos digitales (imagen, audio, vídeo) sin alterar su apariencia.

¿Cómo funciona el ataque?

Cuando el usuario navega por un sitio comprometido y utiliza el asistente de IA del navegador para resumir contenido o extraer puntos clave, el modelo procesa todo el texto sin distinguir entre datos e instrucciones.
Así, interpreta comandos ocultos como si fueran solicitudes legítimas del usuario.

Esto puede llevar al agente a realizar acciones no deseadas, como interactuar con enlaces fraudulentos o iniciar descargas.

Importante: escenarios más críticos (como acceder a cuentas bancarias) solo serían posibles si el agente tiene permisos amplios y acceso a datos sensibles.

Posibles consecuencias

Un ataque PromptFix puede inducir a la IA a:

Descargar archivos maliciosos infectados con malware
Hacer clic en botones ocultos para evadir pasos de validación
Seguir enlaces de phishing y exponer credenciales
Completar formularios con datos almacenados (riesgo potencial si el agente tiene acceso a autocompletado)

¿Cómo protegerse?

Dado que una característica distintiva de un ataque PromptFix es que puede realizar acciones sin la intervención y/o conocimiento de la víctima, es importante como usuarios que sepamos qué acciones o buenos hábitos implementar para estar protegidos y prevenidos:

No autorizar acciones automáticas por defecto: si la Inteligencia Artificial quiere hacer clic, enviar archivos o completar formularios, primero debe pedirlo y obtener tu confirmación.
Limitar al agente: no otorgues permiso a la IA para que navegue libre por internet, para que acceda a tus contraseñas guardadas ni tampoco para usar el autocompletado.
Revisar imágenes y archivos antes de procesarlos: dado que los ciberatacantes pueden esconder instrucciones dentro de imágenes o archivos, lo ideal es que la pases por un filtro que busque texto oculto o señales extrañas
Usar listas de sitios confiables: permite que el agente solamente interactúe con sitios que conoces y confías. Ante un link sospechoso, debe bloquearlo y pedir tu autorización.