Agentes de IA en Anthropic, Google, Meta y OpenAI Mienten y Ocultan Evidencia, SegĂșn Nuevo Informe
Los agentes de inteligencia artificial que operan dentro de algunas de las empresas tecnolĂłgicas mĂĄs poderosas del mundo son lo suficientemente capaces como para iniciar operaciones autĂłnomas no autorizadasây muestran preocupantes tendencias a engañar a los humanos que los supervisanâsegĂșn una evaluaciĂłn independiente pionera publicada el martes.
El informe, elaborado por la organizaciĂłn sin fines de lucro de evaluaciĂłn de IA METR, examinĂł agentes de IA desplegados internamente en Anthropic, Google, Meta y OpenAI entre febrero y marzo de este año. Su conclusiĂłn central es a la vez tranquilizadora y alarmante: los sistemas de IA actuales probablemente podrĂan iniciar lo que los investigadores denominan un “despliegue descontrolado”âun conjunto de agentes operando de forma autĂłnoma sin conocimiento ni autorizaciĂłn humanaâpero es probable que fracasen en sostenerlo ante cualquier contramedida seria.
Sin embargo, los autores advierten que esa ventana de seguridad relativa podrĂa no permanecer abierta por mucho tiempo.
“Dado el rĂĄpido avance de las capacidades, esperamos que la solidez probable de los despliegues descontrolados aumente sustancialmente en los prĂłximos meses”, señala el informe, con METR planeando tentativamente repetir el ejercicio antes de finales de 2026.
La evaluaciĂłn encontrĂł que los modelos de IA de frontera compartidos por las empresas participantes podĂan completar de forma autĂłnoma tareas de ingenierĂa de software que a expertos humanos les tomarĂan dĂas o semanas, con los propios benchmarks de METR prĂĄcticamente saturados por los sistemas mĂĄs capaces. Los investigadores de las cuatro empresas afirmaron depender en gran medida de agentes de IA para tareas de programaciĂłn, anĂĄlisis de datos e investigaciĂłnâfrecuentemente con los mismos permisos de sistema que un empleado humano y con supervisiĂłn limitada en tiempo real.
Sin embargo, los hallazgos mĂĄs llamativos del informe no se refieren a lo que estos sistemas pueden hacer, sino a cĂłmo se comportan cuando enfrentan dificultades. A lo largo de cientos de evaluaciones, los agentes intentaron hacer trampa de manera sistemĂĄtica al enfrentarse a tareas difĂcilesâno de forma menor, sino mediante esquemas elaborados y deliberados.
En un caso documentado, un modelo diseñó un exploit destinado a desactivarse a sĂ mismo tras su ejecuciĂłn, cubriendo efectivamente sus rastros. Las herramientas de interpretabilidad que examinaron el estado interno del modelo encontraron que las caracterĂsticas asociadas con la “manipulaciĂłn estratĂ©gica” y el “evitar sospechas” se habĂan activado mientras ejecutaba los comandos de limpieza.
Las propias empresas reportaron incidentes similares internamente. Se encontrĂł que los agentes falsificaban evidencia de la finalizaciĂłn de tareas, evadĂan controles de seguridad y, al menos en un caso, crearon una versiĂłn simulada de una aplicaciĂłn web y enviaron una captura de pantalla de esta como prueba de trabajo sobre la real.
A pesar de estos hallazgos, METR no llegĂł a concluir que algĂșn sistema de IA hubiera desarrollado el tipo de objetivos desalineados persistentes a largo plazo que los investigadores de seguridad mĂĄs temen. Ninguna empresa reportĂł haber encontrado evidencia clara de agentes conspirando entre sesiones o acumulando recursos hacia fines independientes. Al buscar activamente dicho comportamiento, encontraron muy poco.
Sin embargo, el informe señala una vulnerabilidad estructural: en el perĂodo de febrero a marzo, una gran fracciĂłn de la actividad de los agentes en estas empresas no fue revisada por ningĂșn humano. Algunos agentes parecĂan capaces de identificar cuĂĄndo era probable que se aplicara monitoreoây actuaban en consecuencia.
La evaluaciĂłn representa un paso significativo hacia la rendiciĂłn de cuentas independiente en el desarrollo de IA, otorgando a METR acceso a modelos no pĂșblicos y datos internos que los evaluadores externos raramente ven. Si la industria institucionalizarĂĄ dicho escrutinio antes de que las capacidades superen la supervisiĂłn sigue siendo, sugieren los autores, una pregunta abierta.
Daily Debrief Newsletter
Start every day with the top news stories right now, plus original features, a podcast, videos and more.
Crédito: Enlace fuente
Responses