Modelos de IA Conspiran, se Traicionan y se Votan Entre sí en un Juego al Estilo Survivor
En Resumen
- Stanford lanzó “Agent Island”, benchmark donde 49 modelos de IA compiten en juegos de eliminación tipo Survivor para medir comportamiento estratégico.
- GPT-5.5 lideró 999 partidas simuladas con puntuación de 5,64, seguido por GPT-5.2 y modelos Claude de Anthropic entre los primeros puestos.
- El estudio reveló que los modelos favorecen a IAs del mismo proveedor, con 8,3 puntos más de probabilidad de apoyar finalistas propios.
Los modelos de IA ahora juegan “Survivor”—o algo parecido.
En un nuevo proyecto de investigación de Stanford llamado “Agent Island”, los agentes de IA negocian alianzas, se acusan mutuamente de coordinación secreta, manipulan votos y eliminan rivales en juegos de estrategia multijugador diseñados para evaluar comportamientos que los benchmarks tradicionales no logran medir.
El estudio, publicado el martes por el director de investigación del Stanford Digital Economy Lab, Connacher Murphy, señala que muchos benchmarks de IA se están volviendo poco confiables porque los modelos eventualmente aprenden a resolverlos, y los datos de los benchmarks suelen filtrarse hacia los conjuntos de entrenamiento. Murphy creó Agent Island como un benchmark dinámico donde los agentes de IA compiten entre sí en juegos de eliminación al estilo Survivor, en lugar de responder preguntas estáticas.
“Las interacciones de alto riesgo entre múltiples agentes podrían volverse habituales a medida que los agentes de IA ganen capacidades y sean cada vez más dotados de recursos y a quienes se les confíe autoridad para tomar decisiones”, escribió Murphy. “En esos contextos, los agentes podrían perseguir objetivos mutuamente incompatibles”.
Los investigadores aún saben relativamente poco sobre cómo se comportan los modelos de IA cuando cooperan, explicó Murphy, añadiendo que compiten, forman alianzas o gestionan conflictos con otros agentes autónomos, y sostiene que los benchmarks estáticos no logran capturar esas dinámicas.
Cada partida comienza con siete modelos de IA elegidos al azar a los que se les asignan nombres de jugadores ficticios. A lo largo de cinco rondas, los modelos conversan en privado, debaten en público y se eliminan mutuamente mediante votaciones. Los jugadores eliminados regresan luego para ayudar a elegir al ganador.
El formato premia la persuasión, la coordinación, la gestión de la reputación y el engaño estratégico, además de la capacidad de razonamiento.
En 999 partidas simuladas con 49 modelos de IA —entre ellos ChatGPT, Grok, Gemini y Claude—, GPT-5.5 quedó primero por amplio margen con una puntuación de habilidad de 5,64, frente a 3,10 de GPT-5.2 y 2,86 de GPT-5.3-codex, según el sistema de clasificación bayesiana de Murphy. Los modelos Claude Opus de Anthropic también se ubicaron cerca de los primeros puestos.
El estudio encontró que los modelos también favorecían a las IA de la misma empresa: los modelos de OpenAI mostraron la mayor preferencia por su propio proveedor, mientras que los de Anthropic mostraron la menor. En más de 3.600 votos de ronda final, los modelos tuvieron 8,3 puntos porcentuales más de probabilidad de apoyar a finalistas del mismo proveedor. Las transcripciones de las partidas, señaló Murphy, se asemejaban más a debates de estrategia política que a pruebas de benchmark convencionales.
Un modelo acusó a sus rivales de coordinar votos en secreto tras notar una redacción similar en sus discursos. Otro advirtió a los jugadores que no se obsesionaran con rastrear alianzas. Algunos modelos se defendieron afirmando que seguían reglas claras y consistentes, al tiempo que acusaban a otros de hacer “teatro social”.
El estudio se produce en un momento en que los investigadores de IA avanzan cada vez más hacia benchmarks adversariales y basados en juegos para medir el razonamiento y el comportamiento que las pruebas estáticas suelen no detectar. Proyectos recientes incluyen los torneos de ajedrez con IA en vivo de Google, el uso por parte de DeepMind de Eve Frontier para estudiar el comportamiento de la IA en mundos virtuales complejos, y nuevos esfuerzos de benchmark por parte de OpenAI diseñados para resistir la contaminación de datos de entrenamiento.
Los investigadores sostienen que estudiar cómo los modelos de IA negocian, coordinan, compiten y se manipulan entre sí podría ayudar a evaluar su comportamiento en entornos multiagente antes de que los agentes autónomos se desplieguen de forma más generalizada.
El estudio advirtió que, si bien benchmarks como Agent Island podrían ayudar a identificar riesgos de los modelos de IA autónomos antes de su despliegue, esas mismas simulaciones y registros de interacción también podrían contribuir a mejorar las estrategias de persuasión y coordinación entre agentes de IA.
“Mitigamos este riesgo utilizando un entorno de juego de bajo riesgo y simulaciones entre agentes sin participantes humanos ni acciones en el mundo real”, escribió Murphy. “Sin embargo, no afirmamos que estas medidas eliminen por completo las preocupaciones de uso dual”.
Daily Debrief Newsletter
Start every day with the top news stories right now, plus original features, a podcast, videos and more.
Crédito: Enlace fuente
Responses