GPT-5 No Supera a los Ingenieros en su Propio Terreno: Datadog Expone Limitaciones de la IA
En Resumen Datadog y Carnegie Mellon publicaron ARFBench, un benchmark de 750 preguntas basado en 63 incidentes reales de producción para evaluar modelos de IA.…