GPT-5 No Supera a los Ingenieros en su Propio Terreno: Datadog Expone Limitaciones de la IA
En Resumen
- Datadog y Carnegie Mellon publicaron ARFBench, un benchmark de 750 preguntas basado en 63 incidentes reales de producción para evaluar modelos de IA.
- GPT-5 lideró con 62,7% de precisión, seguido de Gemini 3 Pro con 58,1% y Claude Opus 4.6 con 54,8%, mientras expertos humanos alcanzaron 72,7%.
- Los investigadores hallaron que los errores de IA y humanos apenas se superponen, sugiriendo que la colaboración entre ambos podrÃa alcanzar un 87,2% de precisión.
Las empresas de IA siguen promocionando agentes autónomos de ingenierÃa de confiabilidad del sitio—IA que investiga incidentes de producción en lugar de humanos. Datadog ejecutó el benchmark real sobre interrupciones reales, y los mejores modelos de IA aún no pueden superar a los ingenieros que se supone deben reemplazar.
El benchmark es ARFBench (Anomaly Reasoning Framework Benchmark), un proyecto conjunto de Datadog y Carnegie Mellon. Construido a partir de 63 incidentes de producción reales, extraÃdos de los propios hilos de Slack de los ingenieros durante emergencias en vivo—750 preguntas de opción múltiple que cubren 142 métricas de monitoreo y 5,38 millones de puntos de datos, cada pregunta verificada a mano. Sin datos sintéticos. Sin escenarios de libro de texto.
“Cada año se pierden billones de dólares debido a interrupciones del sistema”, escriben los investigadores. El benchmark evalúa si la IA puede realmente ayudar a cambiar eso.
“A pesar del papel central que juega este tipo de análisis basado en preguntas en la respuesta a incidentes, no está claro si los modelos de fundación modernos pueden responder de manera confiable el tipo de preguntas sobre series temporales que los ingenieros hacen en la práctica”, señala el paper.
Las preguntas se dividen en tres niveles. Nivel I: ¿Existe una anomalÃa en este gráfico? Nivel II: ¿Cuándo comenzó, qué tan grave es, de qué tipo es?
El Nivel III—el más difÃcil—requiere razonamiento entre métricas: ¿Este gráfico está causando el problema en ese otro gráfico? Ahà es donde la IA falla. GPT-5 obtiene apenas un 47,5% de F1 en las preguntas del Nivel III, una métrica que penaliza a los modelos que intentan manipular las respuestas eligiendo la clase más común.
“A pesar del papel central que juega este tipo de análisis basado en preguntas en la respuesta a incidentes, no está claro si los modelos de fundación modernos pueden responder de manera confiable el tipo de preguntas sobre series temporales que los ingenieros hacen en la práctica”, escriben los investigadores.
Cómo se desempeñó cada modelo
GPT-5 lideró todos los modelos existentes con un 62,7% de precisión—en una prueba donde adivinar al azar da un 24,5%. Gemini 3 Pro obtuvo un 58,1%. Claude Opus 4.6: 54,8%. Claude Sonnet 4.5: 47,2%.
Los expertos en el área lograron un 72,7% de precisión. Los no expertos—investigadores de series temporales en Datadog sin amplia experiencia en observabilidad—alcanzaron un 69,7%.
Ningún modelo de IA superó ninguno de los dos umbrales humanos.
El modelo que encabezó el leaderboard completo fue el hÃbrido propio de Datadog: Toto—su modelo interno de pronóstico de series temporales—combinado con Qwen3-VL 32B. Toto-1.0-QA-Experimental obtuvo un 63,9% de precisión, superando a GPT-5 utilizando una fracción de sus parámetros. En la identificación de anomalÃas especÃficamente, superó a todos los demás modelos por al menos 8,8 puntos porcentuales en F1.
Que un modelo de dominio especÃfico, entrenado con datos de observabilidad, supere a un sistema de propósito general de frontera en esta tarea concreta es el resultado esperado. Ese es el punto.
El hallazgo más valioso no es qué modelo obtuvo la puntuación más alta.
“Observamos perfiles de error sustancialmente diferentes entre los modelos lÃderes y los expertos humanos, lo que sugiere que sus fortalezas son complementarias”, afirman los investigadores. Los modelos alucinan, omiten metadatos y pierden contexto de dominio. Los humanos malinterpretan marcas de tiempo precisas y ocasionalmente fallan en instrucciones complejas. Los errores apenas se superponen.
Si se modela un teórico “Oráculo Modelo-Experto”—un juez perfecto que siempre elige la respuesta correcta entre la IA y el humano—se obtiene un 87,2% de precisión y un 82,8% de F1. Muy por encima de cualquiera de los dos por separado.
Eso no es un producto. Es un objetivo documentado—construido a partir de emergencias reales, no de datasets curados—que cuantifica exactamente cuánto mejor podrÃa rendir la colaboración humano-IA. El leaderboard está disponible en Hugging Face. GPT-5 se ubica en 62,7%. El techo es 87,2%.
Daily Debrief Newsletter
Start every day with the top news stories right now, plus original features, a podcast, videos and more.
Crédito: Enlace fuente
Responses