GPT-5 No Supera a los Ingenieros en su Propio Terreno: Datadog Expone Limitaciones de la IA

En Resumen

Datadog y Carnegie Mellon publicaron ARFBench, un benchmark de 750 preguntas basado en 63 incidentes reales de producción para evaluar modelos de IA.
GPT-5 lideró con 62,7% de precisión, seguido de Gemini 3 Pro con 58,1% y Claude Opus 4.6 con 54,8%, mientras expertos humanos alcanzaron 72,7%.
Los investigadores hallaron que los errores de IA y humanos apenas se superponen, sugiriendo que la colaboración entre ambos podría alcanzar un 87,2% de precisión.

Las empresas de IA siguen promocionando agentes autónomos de ingeniería de confiabilidad del sitio—IA que investiga incidentes de producción en lugar de humanos. Datadog ejecutó el benchmark real sobre interrupciones reales, y los mejores modelos de IA aún no pueden superar a los ingenieros que se supone deben reemplazar.

El benchmark es ARFBench (Anomaly Reasoning Framework Benchmark), un proyecto conjunto de Datadog y Carnegie Mellon. Construido a partir de 63 incidentes de producción reales, extraídos de los propios hilos de Slack de los ingenieros durante emergencias en vivo—750 preguntas de opción múltiple que cubren 142 métricas de monitoreo y 5,38 millones de puntos de datos, cada pregunta verificada a mano. Sin datos sintéticos. Sin escenarios de libro de texto.

“Cada año se pierden billones de dólares debido a interrupciones del sistema”, escriben los investigadores. El benchmark evalúa si la IA puede realmente ayudar a cambiar eso.

“A pesar del papel central que juega este tipo de análisis basado en preguntas en la respuesta a incidentes, no está claro si los modelos de fundación modernos pueden responder de manera confiable el tipo de preguntas sobre series temporales que los ingenieros hacen en la práctica”, señala el paper.

Las preguntas se dividen en tres niveles. Nivel I: ¿Existe una anomalía en este gráfico? Nivel II: ¿Cuándo comenzó, qué tan grave es, de qué tipo es?

El Nivel III—el más difícil—requiere razonamiento entre métricas: ¿Este gráfico está causando el problema en ese otro gráfico? Ahí es donde la IA falla. GPT-5 obtiene apenas un 47,5% de F1 en las preguntas del Nivel III, una métrica que penaliza a los modelos que intentan manipular las respuestas eligiendo la clase más común.

Cómo se desempeñó cada modelo

GPT-5 lideró todos los modelos existentes con un 62,7% de precisión—en una prueba donde adivinar al azar da un 24,5%. Gemini 3 Pro obtuvo un 58,1%. Claude Opus 4.6: 54,8%. Claude Sonnet 4.5: 47,2%.

Los expertos en el área lograron un 72,7% de precisión. Los no expertos—investigadores de series temporales en Datadog sin amplia experiencia en observabilidad—alcanzaron un 69,7%.

Ningún modelo de IA superó ninguno de los dos umbrales humanos.

Imagen elaborada por Decrypt basada en el CSV del leaderboard de ARFBench

El modelo que encabezó el leaderboard completo fue el híbrido propio de Datadog: Toto—su modelo interno de pronóstico de series temporales—combinado con Qwen3-VL 32B. Toto-1.0-QA-Experimental obtuvo un 63,9% de precisión, superando a GPT-5 utilizando una fracción de sus parámetros. En la identificación de anomalías específicamente, superó a todos los demás modelos por al menos 8,8 puntos porcentuales en F1.

Que un modelo de dominio específico, entrenado con datos de observabilidad, supere a un sistema de propósito general de frontera en esta tarea concreta es el resultado esperado. Ese es el punto.

El hallazgo más valioso no es qué modelo obtuvo la puntuación más alta.

“Observamos perfiles de error sustancialmente diferentes entre los modelos líderes y los expertos humanos, lo que sugiere que sus fortalezas son complementarias”, afirman los investigadores. Los modelos alucinan, omiten metadatos y pierden contexto de dominio. Los humanos malinterpretan marcas de tiempo precisas y ocasionalmente fallan en instrucciones complejas. Los errores apenas se superponen.

Si se modela un teórico “Oráculo Modelo-Experto”—un juez perfecto que siempre elige la respuesta correcta entre la IA y el humano—se obtiene un 87,2% de precisión y un 82,8% de F1. Muy por encima de cualquiera de los dos por separado.

Eso no es un producto. Es un objetivo documentado—construido a partir de emergencias reales, no de datasets curados—que cuantifica exactamente cuánto mejor podría rendir la colaboración humano-IA. El leaderboard está disponible en Hugging Face. GPT-5 se ubica en 62,7%. El techo es 87,2%.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

Crédito: Enlace fuente

En Resumen

Cómo se desempeñó cada modelo

Daily Debrief Newsletter

Related Articles

Responses