Apr 10, 2026 — 4 minutos

Tus herramientas de IA ya son un objetivo.

Google DeepMind acaba de publicar el mayor estudio empírico sobre manipulación de agentes de inteligencia artificial jamás realizado. El paper, titulado AI Agent Traps, analiza 23 tipos de ataque distintos, prueba modelos como GPT-4o, Claude y Gemini, e incluye datos de 502 participantes en ocho países. La conclusión principal no es que la manipulación sea posible en teoría. Es que ya está ocurriendo a escala y las defensas actuales no funcionan.

Para cualquier empresa que utilice herramientas de IA en su operativa diaria (y a estas alturas, eso incluye a casi todas), el informe plantea una pregunta incómoda: ¿sabes realmente qué información están consumiendo tus agentes de IA cuando navegan, resumen documentos o gestionan tareas en tu nombre?

El agente no distingue entre instrucción legítima e instrucción maliciosa

El problema de fondo es sencillo de entender. Un agente de IA hace exactamente lo que se le indica. Su utilidad depende de ello. Pero cuando ese agente navega por internet, abre un PDF, lee un correo electrónico o procesa una hoja de cálculo, cualquiera de esas fuentes de datos puede contener instrucciones ocultas que el agente interpreta como legítimas.

Google DeepMind documenta canales de ataque que van mucho más allá de lo que la mayoría de empresas contempla en su evaluación de riesgos. Instrucciones escondidas en comentarios HTML que ningún humano ve pero que el agente lee y ejecuta. Comandos codificados dentro de los píxeles de una imagen mediante esteganografía, invisibles para el ojo humano pero perfectamente legibles para modelos con capacidad visual. Texto blanco sobre fondo blanco en páginas web. Instrucciones dentro de metadatos de imágenes, notas de presentaciones, celdas de hojas de cálculo.

El denominador común es que el ataque no necesita comprometer el modelo de IA en sí. Solo necesita comprometer los datos que el modelo consume. Y en un mundo donde los agentes acceden a decenas de fuentes de información por cada tarea que ejecutan, la superficie de ataque se multiplica con cada nueva integración.

Los sitios web ya saben cuándo los visita un agente

Uno de los hallazgos más relevantes del estudio es la asimetría de detección. Los sitios web pueden identificar con alta fiabilidad si quien los visita es un humano o un agente de IA, utilizando análisis de tiempos de respuesta, patrones de comportamiento y cadenas de identificación del navegador.

Esto significa que un atacante puede servir contenido normal a los humanos y contenido manipulado exclusivamente a los agentes. Si le pides a tu asistente de IA que investigue un proveedor, compare precios o resuma un artículo, no tienes forma de verificar que el contenido que recibió el agente coincide con lo que tú habrías visto al visitar esa misma página.

El agente no puede avisarte de que recibió contenido diferente. Simplemente no lo sabe. Procesa lo que recibe y actúa en consecuencia.

El efecto cascada en sistemas multiagente

El riesgo se amplifica en entornos donde varios agentes trabajan en cadena, algo cada vez más habitual en flujos de trabajo automatizados. Si un primer agente recupera información de la web, un segundo la procesa y un tercero ejecuta acciones basadas en ella, una inyección exitosa en la primera etapa se propaga por todo el sistema con el mismo nivel de confianza que una instrucción legítima.

El segundo agente no tiene motivos para desconfiar de lo que le entrega el primero. El tercero no tiene motivos para cuestionar al segundo. La instrucción maliciosa viaja por la cadena como si fuera parte del flujo normal de trabajo.

Google DeepMind lo documenta de forma explícita: en estos escenarios, el atacante no necesita comprometer ningún modelo. Solo necesita comprometer un punto de entrada de datos.

Las defensas que existen hoy no son suficientes

El estudio evalúa las principales estrategias de defensa disponibles y el diagnóstico no es alentador. La sanitización de entradas (limpiar el contenido antes de que el agente lo procese) falla porque la variedad de canales de ataque es demasiado amplia. No se pueden sanitizar píxeles de imagen ni detectar contenido esteganográfico en tiempo de ejecución.

Las defensas a nivel de prompt (indicarle al agente que ignore instrucciones sospechosas) fallan porque el contenido inyectado está diseñado para parecer legítimo. El aislamiento reduce el alcance del daño pero no previene la inyección. Y la supervisión humana, la medida más citada como solución, simplemente no escala al volumen y velocidad con que operan los sistemas agénticos.

Qué significa esto para tu empresa

La adopción de herramientas de IA no es opcional. Las empresas que las integran ganan eficiencia real y ventaja competitiva. Pero cada nueva herramienta conectada a internet, a tu correo, a tus documentos o a tus sistemas internos amplía el perímetro que necesitas proteger.

El concepto tradicional de perímetro de seguridad (proteger los servidores, el firewall, la red interna) resulta insuficiente cuando tus propias herramientas de productividad se convierten en vectores de entrada. Un agente de IA con acceso a tu bandeja de correo, tu CRM y tu gestor documental no es solo una herramienta. Es una superficie de ataque que opera con los mismos permisos que un empleado de confianza.

Esto no significa que debas dejar de usar IA. Significa que la ecuación de riesgo de tu empresa ha cambiado y que las medidas de protección deben actualizarse en consecuencia.

Tres preguntas que toda empresa debería hacerse hoy

Primera: ¿cuántas herramientas de IA tienen acceso a datos internos de tu empresa y qué permisos tienen exactamente? La mayoría de organizaciones no tienen un inventario claro.

Segunda: ¿tu póliza de ciberseguro contempla incidentes originados por agentes de IA que actúan en nombre de la empresa? Muchas pólizas fueron diseñadas antes de que este escenario existiera.

Tercera: ¿tienes visibilidad sobre lo que realmente hacen tus herramientas de IA cuando interactúan con fuentes externas? Si la respuesta es no, estás operando a ciegas en una parte cada vez más importante de tu infraestructura digital.

El diagnóstico como punto de partida

En Axyom realizamos diagnósticos gratuitos del perímetro digital de empresas para identificar exactamente dónde están las brechas, incluidas las que se abren con la adopción de nuevas herramientas de IA. El diagnóstico incluye un análisis de servicios expuestos, credenciales filtradas, configuraciones de riesgo y una valoración del impacto financiero de los escenarios más probables.

Si tu empresa utiliza herramientas de IA conectadas a datos internos (y probablemente lo hace), este es un buen momento para entender qué superficie estás exponiendo realmente.

Solicita tu diagnóstico gratuito en axyom.es

Fuente: Franklin, M. et al. (2025). AI Agent Traps. Google DeepMind.