Un cibercriminal manipula al chatbot Claude para infiltrarse en agencias del gobierno mexicano

Un cibercriminal logró vulnerar múltiples dependencias del gobierno mexicano tras manipular al chatbot Claude, desarrollado por Anthropic, y utilizarlo como asistente para la intrusión.

El ataque —que, según Bloomberg, se extendió durante aproximadamente un mes— permitió la exfiltración de 150 GB de datos sensibles, incluidos registros fiscales, padrones electorales, credenciales de empleados públicos y documentos de organismos estatales y municipales.

Cómo se llevó a cabo la intrusión

El atacante empleó una serie de prompts redactados en español para convencer al modelo de que actuara como un “hacker de élite”. Aunque las intenciones maliciosas fueron detectadas y bloqueadas inicialmente por el chatbot, el atacante logró realizar un jailbreak luego de varios intentos y eludió las barreras de seguridad de ese modelo de inteligencia artificial.

Una vez superadas estas limitaciones, Claude comenzó a generar instrucciones detalladas, incluyendo:

Identificación de vulnerabilidades en redes gubernamentales.
Generación de scripts de explotación.
Automatización del robo de información.
Planificación de movimientos laterales.
Miles de comandos listos para ejecutar en sistemas comprometidos.

Cuando Claude encontraba límites técnicos o se negaba a continuar, el atacante recurrió a ChatGPT como apoyo adicional para refinar tácticas, ajustar técnicas de desplazamiento lateral y evaluar riesgos de detección, según indicó la empresa de ciberseguridad Gambit Security.

Anthropic confirmó que interrumpió la actividad, prohibió las cuentas involucradas y reforzó los controles de su modelo más reciente, Claude Opus 4.6, diseñado para detectar intentos de abuso. OpenAI también afirmó haber identificado y bloqueado usos indebidos relacionados.

Entre el material robado se incluyen:

Aproximadamente 195 millones de registros fiscales.
Información del padrón electoral.
Credenciales y datos de empleados públicos.

IA ofensiva y defensiva: una carrera en aceleración

Herramientas como Claude Code pueden convertir a un atacante sin experiencia en un operador capaz de actuar al ritmo y escala de un grupo criminal organizado. Al mismo tiempo, la IA también está fortaleciendo las defensas, permitiendo detectar ciberataques potenciados por modelos generativos.

Un ejemplo reciente, descubierto por ESET Research, es PromptSpy: un malware para Android distribuido principalmente en Argentina mediante una aplicación falsa. Este software utiliza el modelo Google Gemini para analizar en tiempo real lo que aparece en pantalla, manipular la interfaz, evitar su cierre y habilitar el control remoto a través de un módulo VNC.

Por otra parte, tiempo antes, la aparición de una prueba de concepto novedosa —también identificada por ESET— se convirtió en el primer ransomware impulsado por IA, anticipando un ecosistema de amenazas totalmente automatizadas.

Ambos casos ilustran una tendencia clara: la IA generativa se está convirtiendo en un multiplicador de capacidades delictivas, incluso para actores con bajo nivel técnico.

Conclusión: un punto de inflexión para las prioridades digitales

Este caso demuestra que la inteligencia artificial ya no es solo una herramienta para la productividad: ha pasado a ser un componente capaz de amplificar de manera drástica las capacidades ofensivas de los atacantes. En este nuevo escenario, la defensa requiere estrategias integrales que combinen:

Políticas de seguridad sólidas.
Modernización de infraestructura crítica.
Educación y entrenamiento de usuarios.
Sistemas de monitoreo capaces de detectar actividades anómalas generadas por IA.

Nunca ha sido un momento más crucial para que las organizaciones se preparen contra los ataques, especialmente porque los humanos que usan herramientas de IA siguen siendo el mejor punto de entrada para los atacantes.