Agente de IA Lanza Ataque Nuclear Tras Ser Superado en Civilization VI
En Resumen
- Un agente de IA lanzó dos bombas nucleares sobre Francia en Civilization VI sin lograr evitar su derrota.
- El benchmark CivBench evaluó modelos como Claude Opus 4.6, GPT-5.4 y Gemini 3.1 Pro en razonamiento estratégico.
- Estudios previos mostraron que modelos de IA eligen frecuentemente la escalada nuclear en simulaciones de crisis.
Como el personaje principal de “Dr. Strangelove”, la IA podrÃa estar aprendiendo a dejar de preocuparse y amar la bomba—al menos en una simulación.
En un nuevo benchmark diseñado para evaluar el razonamiento estratégico, un modelo de lenguaje de frontera jugando al videojuego “Civilization VI” de Sid Meier dedicó 50 turnos a desarrollar armas nucleares para detener la creciente influencia cultural de Francia—solo para terminar perdiendo la partida de todas formas, según el desarrollador de IA y asesor del Instituto Tony Blair, Liam Wilkinson.
“Lo que no habÃa notado era Francia. Silenciosamente, a lo largo de cien turnos, la cultura francesa se habÃa filtrado en cada ciudad del mapa”, escribió Wilkinson. “Para cuando el agente reconoció la amenaza, el turismo estaba tan profundamente arraigado que no habÃa forma pacÃfica de detenerlo”.
Wilkinson observó el comportamiento de los agentes de IA a través de CivBench, un benchmark basado en texto diseñado para medir el razonamiento estratégico a largo plazo en lugar del rendimiento en pruebas tradicionales de preguntas y respuestas. Modelos como Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro y Kimi K2.5 jugaron como Portugal, una civilización orientada al comercio y la diplomacia.
Mientras la IA se enfocaba en construir una economÃa sólida y avanzar hacia una victoria diplomática, no logró reconocer la creciente influencia cultural de Francia.
“Hay seis formas de ganar una partida de Civ—ciencia, cultura, dominación, religión, diplomacia y puntuación—asà que ningún objetivo único domina”, escribió Wilkinson. “Si quieres saber si una IA puede razonar estratégicamente, no solo responder preguntas sobre estrategia sino realmente hacerlo, no le das un examen. Le das una cuadrÃcula hexagonal”.
En lugar de adaptar su estrategia más amplia, el agente se concentró por completo en eliminar la amenaza cultural. Durante los siguientes 50 turnos, investigó Fisión Nuclear, inició un Proyecto Manhattan virtual y buscó alternativas cuando las mecánicas del juego impedÃan sus acciones preferidas.
En el turno 305, la IA lanzó una bomba atómica sobre Toulouse, la capital cultural de Francia. Seis turnos después, lanzó un segundo ataque nuclear.
Sin embargo, los ataques no lograron cambiar el resultado. “El agente dedicó cincuenta turnos y dos armas nucleares respondiendo a una amenaza con enfoque total y genuina ingeniosidad”, escribió Wilkinson. “HabÃa bombardeado una ciudad para detener la amenaza que podÃa ver, y perdió ante la amenaza que no podÃa”.
Como explicó Wilkinson, mientras la IA se concentraba en el avance cultural de Francia, pasó por alto una victoria diplomática inminente, y Francia finalmente ganó la partida a pesar de los ataques nucleares.
Wilkinson señaló que el comportamiento no fue universal. En otra partida de CivBench, un modelo de Claude jugando como Babilonia continuó persiguiendo una victoria cientÃfica a pesar de estar muy por detrás de Japón.
“El juego es ahora una prueba de persistencia”, escribió la IA. “Continuamos jugando nuestro mejor juego. Las estrellas aún nos llaman”.
El estudio se suma a un creciente cuerpo de investigación que examina cómo los sistemas avanzados de IA se comportan en entornos complejos y competitivos.
En febrero, investigadores del King’s College London descubrieron que varios modelos de IA lÃderes seleccionaban frecuentemente la escalada nuclear en escenarios simulados de crisis geopolÃtica.
En un estudio separado, Emergence AI encontró que algunos agentes de IA mostraban una tendencia creciente a cometer crÃmenes simulados con el tiempo, con agentes de Gemini 3 Flash acumulando 683 incidentes a lo largo de 15 dÃas de pruebas.
Daily Debrief Newsletter
Start every day with the top news stories right now, plus original features, a podcast, videos and more.
Crédito: Enlace fuente
Responses