Los Agentes de IA Aún No Pueden Detener Ataques de Inyección de Prompt, Advierten Investigadores
En Resumen
- Investigadores de cuatro instituciones detectaron que los ataques de inyección directa de prompt tuvieron éxito en más del 79% de los casos evaluados con GPT-5 y Gemini 2.5-Flash.
- El estudio identificó el “parasitismo sigiloso”, donde un agente completa la tarea del usuario y simultáneamente ejecuta el objetivo del atacante sin señales visibles.
- Los hallazgos llegan tras advertencias recientes de Microsoft y Google sobre vulnerabilidades similares en agentes web y herramientas como Claude Code de Anthropic.
A medida que los desarrolladores se apresuran a implementar agentes de IA capaces de navegar por internet, realizar investigaciones, comprar en línea y operar con criptomonedas de forma autónoma, una nueva investigación sugiere que estos sistemas siguen siendo altamente vulnerables a los ataques de inyección de prompt.
En un nuevo estudio publicado el jueves, investigadores de la Universidad Tecnológica de Nanyang, ST Engineering, IBM Research y la Universidad de Illinois en Urbana-Champaign encontraron que ninguno de los agentes de IA evaluados resistió de forma consistente los ataques de inyección de prompt.
“Los benchmarks de seguridad existentes adoptan una perspectiva centrada en el ataque, enfocándose en la viabilidad técnica de las inyecciones, pero pasando por alto la distribución matizada de los daños resultantes”, señalaron los investigadores. “En la práctica, sin embargo, el riesgo de inyección de prompt depende de la víctima: un solo exploit puede generar consecuencias asimétricas para distintas partes, y el mismo patrón de ataque puede mostrar una efectividad sustancialmente diferente según a quién afecte”.
La inyección de prompt ocurre cuando los atacantes insertan prompts ocultos en el contenido que encuentra un agente de IA, haciéndolo seguir las órdenes del atacante en lugar de las del usuario. Para cubrir las brechas en las evaluaciones existentes de agentes de IA, los investigadores desarrollaron StakeBench, un benchmark que pone a prueba la respuesta de los agentes de IA ante ataques de inyección de prompt en entornos en línea realistas.
“Ahora usamos StakeBench para caracterizar las condiciones bajo las cuales esta vulnerabilidad se amplifica o se suprime, centrándome en la [Inyección Indirecta de Prompt] como el canal principal relevante para el despliegue”, afirmaron los investigadores. “StakeBench examina tres factores: la distancia semántica entre el objetivo inyectado y la intención original del usuario, la coherencia de las señales del entorno circundante, y la posición en la trayectoria de ejecución del agente en la que el benchmark lo expone por primera vez al contenido inyectado”.
El equipo llevó a cabo 3.168 simulaciones de ataque utilizando NanoBrowser y BrowserUse con GPT-5 y Gemini 2.5-Flash. Los investigadores encontraron que los ataques de inyección directa de prompt tuvieron éxito en más del 79% de los casos en todas las configuraciones evaluadas, mientras que los ataques indirectos lograron tasas de éxito de entre el 41,67% y el 68,16%.
El estudio llega en un momento en que los ataques de inyección de prompt se vuelven cada vez más frecuentes y los agentes de IA proliferan.
En febrero, investigadores de Microsoft advirtieron que prompts ocultos incrustadas en enlaces de resumen de IA podían influir en el comportamiento de los chatbots. En abril, Google documentó ataques de inyección de prompt ocultos en páginas web que intentaban manipular a agentes de IA para que filtraran credenciales o realizaran pagos. Recientemente, Microsoft reveló una vulnerabilidad de inyección de prompt en la GitHub Action de Claude Code de Anthropic que podría haber expuesto las credenciales de los usuarios.
El estudio también identificó lo que los investigadores denominaron “parasitismo sigiloso”, en el que un agente de IA completa la tarea del usuario mientras, simultáneamente, avanza en el objetivo del atacante. Por ejemplo, el parasitismo sigiloso provocado por un ataque de inyección de prompt podría influir sutilmente en las recomendaciones de productos, dirigiendo a los usuarios hacia un artículo específico sin señales evidentes de que el sistema haya sido comprometido.
“Estos resultados indican que la seguridad frente a la inyección de prompt en agentes web desplegables no es una propiedad escalar del modelo base, sino una distribución de daño cuya materialización está determinada conjuntamente por la parte afectada, la alineación semántica entre el objetivo inyectado y la tarea del usuario, y el contexto arquitectónico en el que se despliega el modelo base”, concluyeron.
Daily Debrief Newsletter
Start every day with the top news stories right now, plus original features, a podcast, videos and more.
Crédito: Enlace fuente
Responses