Claude Fable 5 No es Limitado: El Enrutador Simplemente es Demasiado ParanĂ³ico

En Resumen

  • Claude Fable 5 no perdiĂ³ capacidad, pero su nuevo filtro de seguridad desvĂ­a muchas consultas a otro modelo.
  • BridgeBench detectĂ³ una fuerte caĂ­da en programaciĂ³n; Arena.AI encontrĂ³ un rendimiento casi sin cambios.
  • Los desarrolladores son los mĂ¡s afectados, mientras que escritura, anĂ¡lisis e investigaciĂ³n mantienen un desempeño estable.

Claude Fable 5 volviĂ³ a estar disponible el 1 de julio, y el veredicto en las redes sociales no fue nada favorable: roto, limitado, “lobotomizado”, con un rendimiento inferior y distinto al modelo original.

Las crĂ­ticas de los usuarios fueron contundentes. Ese mismo dĂ­a, dos evaluaciones independientes, BridgeBench AI y Arena AI, publicaron resultados que llegaron a conclusiones opuestas. Una detectĂ³ una degradaciĂ³n severa en la calidad de las respuestas; la otra encontrĂ³ diferencias tan pequeñas que podrĂ­an pasar desapercibidas para la mayorĂ­a de los usuarios.

Curiosamente, ambas tienen razĂ³n.

La explicaciĂ³n breve es la siguiente: el modelo no se volviĂ³ menos inteligente. Lo que cambiĂ³ fue el sistema de seguridad que decide si Claude Fable 5 puede responder o si la solicitud debe ser desviada a otro modelo. Esa diferencia resulta crucial dependiendo del uso que se le dĂ© a Fable.

QuĂ© midiĂ³ realmente BridgeBench

BridgeMind, una plataforma de evaluaciĂ³n de IA, volviĂ³ a ejecutar su baterĂ­a completa de pruebas de programaciĂ³n sobre la versiĂ³n del 1 de julio de Fable 5 el mismo dĂ­a en que regresĂ³ al servicio.

BridgeBench evalĂºa tareas reales de programaciĂ³n en categorĂ­as como depuraciĂ³n, refactorizaciĂ³n y resistencia a las alucinaciones, asignando una puntuaciĂ³n de 0 a 100 segĂºn el desempeño del modelo. Sobre el papel, los resultados fueron preocupantes: la puntuaciĂ³n en depuraciĂ³n cayĂ³ de 86,2 a 25,9; la de refactorizaciĂ³n, de 73,6 a 38,4; y la resistencia a las alucinaciones, de 75,9 a 61,7.

Sin embargo, el detalle estĂ¡ en la metodologĂ­a. De las 12 tareas de depuraciĂ³n en TypeScript, solo tres llegaron realmente a Claude Fable 5. Las otras nueve fueron interceptadas por el nuevo clasificador de seguridad de Anthropic y redirigidas a Claude Opus 4.8. BridgeBench asigna una puntuaciĂ³n de cero cada vez que ocurre ese reemplazo, ya que el modelo que respondiĂ³ no fue el que estaba siendo evaluado.

El clasificador, implementado como condiciĂ³n para el regreso de Fable, fue entrenado para bloquear la tĂ©cnica de jailbreak reportada por Amazon, que permitĂ­a a Fable 5 identificar y demostrar vulnerabilidades de software. El sistema cumple ese objetivo, pero tambiĂ©n bloquea muchas solicitudes que no deberĂ­an considerarse riesgosas. La depuraciĂ³n de cĂ³digo TypeScript, por ejemplo, se parece lo suficiente a una tarea de seguridad como para activar el filtro con frecuencia.

QuĂ© midiĂ³ Arena.AI

Arena.AI, una plataforma de comparaciĂ³n y evaluaciĂ³n de modelos de lenguaje, analizĂ³ el mismo problema desde otra perspectiva. El servicio recopila miles de votos anĂ³nimos de usuarios que comparan respuestas en categorĂ­as como texto, visiĂ³n, documentos, programaciĂ³n y agentes, y luego clasifica los modelos mediante el sistema Elo, utilizado originalmente en el ajedrez para medir el rendimiento relativo. Cuando dos modelos responden de forma anĂ³nima y los usuarios eligen cuĂ¡l prefieren, la puntuaciĂ³n refleja la calidad percibida por las personas, no el funcionamiento interno de la infraestructura.

La comparaciĂ³n antes y despuĂ©s mostrĂ³ que Fable 5 prĂ¡cticamente mantuvo su nivel. La puntuaciĂ³n en desarrollo frontend pasĂ³ de 1650 a 1623 Elo, una diferencia que Arena considera dentro del margen de error mientras continĂºa recopilando datos. El rendimiento en documentos aumentĂ³ 34 puntos; el texto especializado mejorĂ³ 25; y la escritura creativa subiĂ³ ligeramente, con nueve puntos adicionales. Las Ăºnicas categorĂ­as que registraron caĂ­das fueron programaciĂ³n (-18) y solicitudes difĂ­ciles (-3), precisamente aquellas donde el clasificador tiene mĂ¡s probabilidades de intervenir antes de que Fable responda.

En otras palabras, cuando Claude Fable 5 es quien realmente responde, su rendimiento sigue siendo el esperado. La frustraciĂ³n expresada en X no parece deberse a que el modelo haya empeorado, sino a que los usuarios pagan por Fable 5 y con frecuencia reciben respuestas generadas por otro modelo.

QuiĂ©nes se verĂ¡n afectados y quiĂ©nes no

Los usuarios que utilizan Claude para escribir, analizar documentos, investigar o realizar consultas especializadas probablemente notarĂ¡n pocos o ningĂºn cambio. Esas son precisamente las categorĂ­as en las que Arena.AI observĂ³ un rendimiento estable o incluso ligeramente superior. Si existe alguna mejora, probablemente sea demasiado pequeña para percibirse claramente, sobre todo en tareas subjetivas como la escritura creativa.

En la prĂ¡ctica, escritores, investigadores y analistas seguirĂ¡n obteniendo el desempeño esperado de Fable 5. Para los desarrolladores, la situaciĂ³n es diferente.

Quienes trabajen en Ă¡reas relacionadas con la seguridad informĂ¡tica —como gestiĂ³n de memoria, anĂ¡lisis de vulnerabilidades o tareas que incluyan tĂ©rminos como “vulnerabilidad”, “exploit”, “hook” o incluso “corregir”— probablemente activarĂ¡n el sistema de reemplazo con bastante frecuencia.

La diferencia entre el desplome registrado por BridgeBench y la estabilidad observada por Arena se explica por el tipo de tareas evaluadas. BridgeBench utiliza numerosas pruebas de depuraciĂ³n y reparaciĂ³n de cĂ³digo, exactamente el tipo de solicitudes que activan el nuevo clasificador. Arena, en cambio, recopila una gama mucho mĂ¡s amplia de consultas realizadas por usuarios, la mayorĂ­a de las cuales no se parecen a cĂ³digo destinado a explotar vulnerabilidades.

Anthropic ha reconocido que el clasificador seguirĂ¡ mejorĂ¡ndose con el tiempo y admitiĂ³ que actualmente bloquea demasiadas solicitudes. La prohibiciĂ³n original se produjo despuĂ©s de que investigadores de Amazon descubrieran un mĂ©todo para hacer que Fable identificara y demostrara vulnerabilidades de software, algo que el gobierno de Estados Unidos considerĂ³ un riesgo para la seguridad nacional. La soluciĂ³n inicial fue crear un clasificador suficientemente conservador para bloquear ese comportamiento y otros similares, con la intenciĂ³n de hacerlo menos restrictivo mĂ¡s adelante.

Por ahora, Anthropic no ha anunciado una fecha para ese ajuste.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.



Crédito: Enlace fuente

Related Articles

Responses

Your email address will not be published. Required fields are marked *