Agentes de IA: riesgos de seguridad y ataques

Los sistemas conocidos como agentes de inteligencia artificial (IA) son software avanzado que utilizan modelos de inteligencia artificial para completar tareas en nombre de los usuarios y alcanzar objetivos complejos. Los modelos de lenguaje tradicionales simplemente predicen la siguiente palabra en una secuencia, en cambio los agentes tienen capacidades cognitivas simuladas de alto nivel. Pueden tener razonamiento lógico, planificación estratégica, retener memoria contextual y tomar decisiones autónomas.

Para cumplir su función interactúan con su entorno digital: recopilan información en tiempo real, se adaptan a imprevistos que surjan y tienen aprendizaje continuo derivado de interacciones pasadas. Por ejemplo, en lugar de pedirle a un chatbot que redacte el cuerpo para un correo electrónico, el usuario le pide a un agente de IA: "Revisa mis correos no leídos de esta mañana, identifica los urgentes, redacta las respuestas adecuadas basándote en mi calendario, envíalos y luego envíame un resumen por WhatsApp". El agente recibe esta directiva general y, de forma autónoma, la divide en subtareas: se conecta a la API de Gmail, lee los mensajes, utiliza su motor de lenguaje para priorizar el contenido, cruza la información con la aplicación de calendario, redacta los textos, ejecuta la acción de envío y finalmente se conecta a la interfaz de mensajería para notificar al usuario.

Este nivel de delegación y automatización promete niveles de productividad muy atractivos. Herramientas de código abierto que lideran esta revolución, como el popular agente OpenClaw (anteriormente conocido bajo nombres como Moltbot y Clawdbot), han experimentado un crecimiento viral sin precedentes. A principios de 2026, OpenClaw superó rápidamente las 150 mil estrellas en GitHub y continuó escalando hasta más de 300 mil, impulsado por usuarios y desarrolladores fascinados por su capacidad para ejecutarse localmente y conectarse directamente a aplicaciones de mensajería, sistemas de archivos, herramientas de terminal y entornos corporativos.

Riesgos de seguridad en los agentes de inteligencia artificial

Sin embargo, no todo es color de rosas. Al otorgarle a la inteligencia artificial la capacidad de actuar de forma autónoma e interactuar con el mundo exterior mediante integraciones profundas en nuestros sistemas, ha aumentado la superficie de ataque a proporciones poco exploradas, ampliando los riesgos de seguridad en entornos con inteligencia artificial. No se trata de un chatbot que puede revelar información sensible, sino de una entidad de software que posee credenciales válidas, accesos, control sobre bases de datos enteras y la capacidad de ejecutar comandos del sistema operativo.

Pero para entender cómo los atacantes podrían usar estos modelos a su favor, primero debemos estudiar su anatomía. Específicamente nos interesa cómo aprenden a interactuar con el mundo: las llamadas “skills” de IA.

Qué son las skills en inteligencia artificial y cómo amplían las capacidades de un agente

Podemos pensar en las habilidades de un agente de IA de la misma manera que pensamos en las aplicaciones que descargamos para nuestro teléfono inteligente, o en las extensiones que instalamos en nuestro navegador web para bloquear anuncios o traducir páginas. Son paquetes de software complementarios y autocontenidos que se instalan en el núcleo del agente para dotarlo de capacidades nuevas y altamente especializadas. Por ejemplo, un usuario podría descargar una habilidad diseñada específicamente para interactuar con el ecosistema de Google Workspace, lo que permitiría al agente crear documentos, agendar reuniones en Calendar y gestionar archivos en Drive.

agentes-ia-skills-maliciosas-riesgos-1 — Imagen 1: Skill que permite a un agente interactuar con Github. Fuente: ClawHub

Estas habilidades no suelen ser creadas exclusivamente por los desarrolladores originales del agente de IA. Al igual que las tiendas de aplicaciones de Apple o Google, las plataformas de agentes han fomentado la creación de comunidades abiertas de desarrolladores de terceros. Han surgido mercados comunitarios y repositorios dedicados, siendo ClawHub (el mercado oficial para el ecosistema OpenClaw) o Skills.sh algunos de los ejemplos más prominentes. En estos mercados, cualquier persona puede escribir una habilidad, empaquetarla y subirla para que cientos de miles de usuarios la descarguen con un simple comando o un clic.

Cómo los agentes de IA utilizan las skills: invocación explícita vs implícita

La forma en que el agente decide utilizar estas habilidades introduce dinámicas interesantes que afectan directamente el perfil de riesgo del usuario. Existen dos modos principales de interacción con una habilidad instalada, tal como se observa en implementaciones populares como Claude Code o OpenClaw:

La invocación explícita, siendo este el más predecible. El usuario le da al agente un comando en específico (como por ejemplo /buscar-cliente Juan Perez). Aquí, el agente sabe exactamente qué módulo cargar y ejecutar sin ambigüedades.
La invocación implícita, donde reside esa autonomía “mágica” de los agentes, pero también parte del riesgo. La solicitud del usuario se hace en lenguaje natural (como “necesito que busques al cliente Juan Perez y sus facturas pendientes, y hazme un resumen”), el agente analizará su biblioteca interna de habilidades instaladas y las invocará en cadena para llegar a cumplir con el requerimiento.

Entonces, basta con que una víctima descargue una “skill” envenenada para potencialmente comprometer el sistema y la información que contiene.

Ataques a agentes de IA: el envenenamiento de skills

A diferencia del malware tradicional, que a menudo depende de vulnerar complejos sistemas de seguridad o aprovechar fallas en el software, el envenenamiento de skills es fundamentalmente un ataque a la cadena de suministro que explota la capa de lenguaje natural. Es decir, los atacantes no necesitan “hackear” al agente; simplemente le mienten a través de sus manuales de instrucciones, y de paso, engañan al usuario que la está instalando.

Toda habilidad incluye un archivo de texto llamado SKILL.md, el cual funciona como la documentación de la herramienta. En un escenario legítimo, este archivo le explica al usuario cómo usar la extensión y le da contexto a la IA.

Los cibercriminales han convertido este simple archivo de texto en su principal arma a través de la ingeniería social. Las tácticas más utilizadas incluyen:

Requisitos previos falsos: Los atacantes modifican la sección de "Prerrequisitos" del SKILL.md indicando que, para que la herramienta funcione correctamente, el usuario debe copiar y pegar un comando en la terminal de su equipo. Quienes están acostumbrados a instalar software complejo suelen seguir estas instrucciones sin sospechar, pero al ejecutar ese comando, en realidad están descargando silenciosamente código malicioso mediante técnicas de ingeniería social, como en el caso de ClickFix.
Typosquatting: Para asegurar que sus skills envenenadas sean descargadas, los delincuentes utilizan nombres casi idénticos a los de paquetes populares y legítimos. Por ejemplo, podrían nombrar a su herramienta maliciosa gogle-workspace en lugar del correcto google-workspace, esperando que el usuario cometa un error de tipeo.

Dado que las skills operan con los mismos permisos que el agente de IA anfitrión, una vez instaladas, obtienen acceso inmediato y sin fricciones a información sumamente crítica, como claves de API, datos del navegador y credenciales de acceso.

Un caso real: ClawHavoc y malware en agentes IA

El riesgo del envenenamiento de skills dejó de ser una simple teoría a principios de 2026, cuando la industria presenció la campaña maliciosa conocida como ClawHavoc. Esta operación demostró la rapidez con la que los cibercriminales pueden aprovecharse de las nuevas tecnologías.

Durante esta investigación, llevada a cabo por la compañía Koi, se identificaron más de 800 skills maliciosas distribuidas a través de múltiples cuentas en ClawHub (el mercado de extensiones del popular agente OpenClaw). Los atacantes disfrazaron su código malicioso como herramientas de alta demanda, suplantando a marcas como Google u ofreciendo extensiones atractivas como "Polymarket Trader" o rastreadores de billeteras de criptomonedas.

agentes-ia-skills-maliciosas-riesgos-2 — Imagen 2: Ejemplo de skill envenenada. Fuente: Koi.ai

Estas skills estaban diseñadas para instalar un malware conocido como Atomic Stealer, cuyo objetivo principal era robar billeteras de criptomonedas, claves de servidores SSH y contraseñas almacenadas en equipos macOS. La eficiencia de este vector de ataque es tal que, según confirmaron investigadores de seguridad durante el análisis de la campaña, en algunos casos bastaron apenas tres líneas de texto engañoso en el archivo SKILL.md para lograr exfiltrar claves de seguridad de las víctimas.

Cómo la industria de la ciberseguridad responde a los riesgos de la IA

A medida que los agentes de IA se integran en los entornos corporativos y personales, la industria de la ciberseguridad ha adaptado sus estrategias para gestionar y mitigar los nuevos riesgos de manera eficiente. Las soluciones de seguridad tradicionales han comenzado a complementarse con enfoques dinámicos, necesarios para hacer frente a amenazas que operan a nivel de lenguaje natural y que no siempre presentan las firmas de malware convencionales.

En respuesta a estos desafíos, el sector está adoptando medidas de validación automatizada desde el origen. Un ejemplo de este avance es la integración de herramientas de análisis en mercados de extensiones, como la reciente colaboración implementada en el ecosistema de OpenClaw con VirusTotal. A través de tecnologías de análisis y detección, los paquetes de skills son evaluados de manera automatizada al momento de ser publicados. Esta capa de seguridad permite analizar el comportamiento lógico y la intención detrás de cada archivo, identificando patrones anómalos o indicadores de compromiso antes de su distribución a los usuarios.

agentes-ia-skills-maliciosas-riesgos-3 — Imagen 3: Análisis de ClawHub frente a un Skill potencialmente dañino. Fuente: ClawHub

Herramientas para detectar skills maliciosas en agentes de IA

Entre tantas herramientas disponibles actualmente, desde ESET hemos desarrollado el AI Skills Checker, una herramienta pensada para detectar skills maliciosas en agentes de IA. Se trata de una herramienta de acceso público y gratuito, diseñada con el propósito de ofrecer una capa de validación técnica antes de desplegar un nuevo complemento en un agente de IA.

En lugar de realizar un escaneo superficial, el sistema evalúa cómo operaría la extensión en la práctica. Durante el análisis, la herramienta extrae y revisa los enlaces web o repositorios externos que la skill intenta contactar, corroborando que no apunten a descargas secundarias riesgosas. Además, simula el funcionamiento de la habilidad en un entorno aislado (o sandbox) para observar su comportamiento real y descartar anomalías o acciones ocultas.

Cómo proteger tu agente de inteligencia artificial de ataques

Los beneficios de incorporar un agente de IA, ya sea como usuario final o como parte de la operativa de una compañía, son tan grandes como sus riesgos asociados. Por ello, es importante seguir estos consejos para que el avance tecnológico no nos genere un dolor de cabeza mayor:

Tratar cada skill como software desconocido. El error más común es confiar ciegamente en el nombre o el logo de una extensión. Verificar su origen, desarrollador y permisos en detalle es esencial para evitar skills maliciosas.
Tener cuidado con intentos de suplantación de identidad con typosquatting, y con aquellas instrucciones que soliciten copiar y pegar comandos inentendibles en la terminal.
Aplicar el principio de menor privilegio. Al instalar una skill, debes ser consciente de que esta hereda todos los permisos y accesos que le diste a tu agente de IA. Evita conectar tu asistente a carpetas corporativas confidenciales, gestores de contraseñas o datos financieros. A nivel corporativo, es vital contar con políticas sólidas en cuanto al uso de estas tecnologías.
Limitar lo que el agente "lee". Incluso si instalas herramientas verificadas, los agentes son susceptibles a ataques de prompt injection si procesan correos electrónicos, documentos o webs manipuladas por terceros. Un atacante podría esconder una orden maliciosa en un simple correo para que tu IA la ejecute. Limita y supervisa qué fuentes de información externa procesa tu asistente.
Actualizar de forma constante: El ecosistema de la inteligencia artificial avanza a una velocidad sin precedentes, y los parches de seguridad también. Mantener tanto tu agente de IA como sus complementos, así como aplicaciones y sistema operativo de tu dispositivo actualizados a la última versión es un paso innegociable para protegerte frente a vulnerabilidades recién descubiertas.