Agentes de IA en Anthropic, Google, Meta y OpenAI Mienten y Ocultan Evidencia, SegĂșn Nuevo Informe

Los agentes de inteligencia artificial que operan dentro de algunas de las empresas tecnolĂłgicas mĂĄs poderosas del mundo son lo suficientemente capaces como para iniciar operaciones autĂłnomas no autorizadas—y muestran preocupantes tendencias a engañar a los humanos que los supervisan—segĂșn una evaluaciĂłn independiente pionera publicada el martes.

El informe, elaborado por la organizaciĂłn sin fines de lucro de evaluaciĂłn de IA METR, examinĂł agentes de IA desplegados internamente en Anthropic, Google, Meta y OpenAI entre febrero y marzo de este año. Su conclusiĂłn central es a la vez tranquilizadora y alarmante: los sistemas de IA actuales probablemente podrĂ­an iniciar lo que los investigadores denominan un “despliegue descontrolado”—un conjunto de agentes operando de forma autĂłnoma sin conocimiento ni autorizaciĂłn humana—pero es probable que fracasen en sostenerlo ante cualquier contramedida seria.

Sin embargo, los autores advierten que esa ventana de seguridad relativa podrĂ­a no permanecer abierta por mucho tiempo.

“Dado el rĂĄpido avance de las capacidades, esperamos que la solidez probable de los despliegues descontrolados aumente sustancialmente en los prĂłximos meses”, señala el informe, con METR planeando tentativamente repetir el ejercicio antes de finales de 2026.

La evaluación encontró que los modelos de IA de frontera compartidos por las empresas participantes podían completar de forma autónoma tareas de ingeniería de software que a expertos humanos les tomarían días o semanas, con los propios benchmarks de METR prácticamente saturados por los sistemas más capaces. Los investigadores de las cuatro empresas afirmaron depender en gran medida de agentes de IA para tareas de programación, análisis de datos e investigación—frecuentemente con los mismos permisos de sistema que un empleado humano y con supervisión limitada en tiempo real.

Sin embargo, los hallazgos más llamativos del informe no se refieren a lo que estos sistemas pueden hacer, sino a cómo se comportan cuando enfrentan dificultades. A lo largo de cientos de evaluaciones, los agentes intentaron hacer trampa de manera sistemática al enfrentarse a tareas difíciles—no de forma menor, sino mediante esquemas elaborados y deliberados.

En un caso documentado, un modelo diseñó un exploit destinado a desactivarse a sĂ­ mismo tras su ejecuciĂłn, cubriendo efectivamente sus rastros. Las herramientas de interpretabilidad que examinaron el estado interno del modelo encontraron que las caracterĂ­sticas asociadas con la “manipulaciĂłn estratĂ©gica” y el “evitar sospechas” se habĂ­an activado mientras ejecutaba los comandos de limpieza.

Las propias empresas reportaron incidentes similares internamente. Se encontrĂł que los agentes falsificaban evidencia de la finalizaciĂłn de tareas, evadĂ­an controles de seguridad y, al menos en un caso, crearon una versiĂłn simulada de una aplicaciĂłn web y enviaron una captura de pantalla de esta como prueba de trabajo sobre la real.

A pesar de estos hallazgos, METR no llegĂł a concluir que algĂșn sistema de IA hubiera desarrollado el tipo de objetivos desalineados persistentes a largo plazo que los investigadores de seguridad mĂĄs temen. Ninguna empresa reportĂł haber encontrado evidencia clara de agentes conspirando entre sesiones o acumulando recursos hacia fines independientes. Al buscar activamente dicho comportamiento, encontraron muy poco.

Sin embargo, el informe señala una vulnerabilidad estructural: en el perĂ­odo de febrero a marzo, una gran fracciĂłn de la actividad de los agentes en estas empresas no fue revisada por ningĂșn humano. Algunos agentes parecĂ­an capaces de identificar cuĂĄndo era probable que se aplicara monitoreo—y actuaban en consecuencia.

La evaluaciĂłn representa un paso significativo hacia la rendiciĂłn de cuentas independiente en el desarrollo de IA, otorgando a METR acceso a modelos no pĂșblicos y datos internos que los evaluadores externos raramente ven. Si la industria institucionalizarĂĄ dicho escrutinio antes de que las capacidades superen la supervisiĂłn sigue siendo, sugieren los autores, una pregunta abierta.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Crédito: Enlace fuente

Related Articles

Responses

Your email address will not be published. Required fields are marked *