Claude Fable 5 no perdiĂ³ capacidad, pero su nuevo filtro de seguridad desvĂa muchas consultas a otro modelo.
BridgeBench detectĂ³ una fuerte caĂda en programaciĂ³n; Arena.AI encontrĂ³ un rendimiento casi sin cambios.
Los desarrolladores son los mĂ¡s afectados, mientras que escritura, anĂ¡lisis e investigaciĂ³n mantienen un desempeño estable.
Claude Fable 5 volviĂ³ a estar disponible el 1 de julio, y el veredicto en las redes sociales no fue nada favorable: roto, limitado, “lobotomizado”, con un rendimiento inferior y distinto al modelo original.
Have been using Fable 5 all day just continuing what I was doing with Opus
The findings are true
It’s completely nerfed
Politics has nuked civilian technological advancement once again https://t.co/Ed3jrqOxbK
— BharadwajC (@bwjbuild) July 2, 2026
Las crĂticas de los usuarios fueron contundentes. Ese mismo dĂa, dos evaluaciones independientes, BridgeBench AI y Arena AI, publicaron resultados que llegaron a conclusiones opuestas. Una detectĂ³ una degradaciĂ³n severa en la calidad de las respuestas; la otra encontrĂ³ diferencias tan pequeñas que podrĂan pasar desapercibidas para la mayorĂa de los usuarios.
BridgeMind, una plataforma de evaluaciĂ³n de IA, volviĂ³ a ejecutar su baterĂa completa de pruebas de programaciĂ³n sobre la versiĂ³n del 1 de julio de Fable 5 el mismo dĂa en que regresĂ³ al servicio.
BridgeBench evalĂºa tareas reales de programaciĂ³n en categorĂas como depuraciĂ³n, refactorizaciĂ³n y resistencia a las alucinaciones, asignando una puntuaciĂ³n de 0 a 100 segĂºn el desempeño del modelo. Sobre el papel, los resultados fueron preocupantes: la puntuaciĂ³n en depuraciĂ³n cayĂ³ de 86,2 a 25,9; la de refactorizaciĂ³n, de 73,6 a 38,4; y la resistencia a las alucinaciones, de 75,9 a 61,7.
FABLE 5 CAME BACK NERFED.
We re-ran the July 1st version of Claude Fable 5 on BridgeBench.
The new guardrails are kicking in on way too many tasks and falling back to Opus… pic.twitter.com/tcUDDXpZMF
— BridgeMind (@bridgemindai) July 2, 2026
Sin embargo, el detalle estĂ¡ en la metodologĂa. De las 12 tareas de depuraciĂ³n en TypeScript, solo tres llegaron realmente a Claude Fable 5. Las otras nueve fueron interceptadas por el nuevo clasificador de seguridad de Anthropic y redirigidas a Claude Opus 4.8. BridgeBench asigna una puntuaciĂ³n de cero cada vez que ocurre ese reemplazo, ya que el modelo que respondiĂ³ no fue el que estaba siendo evaluado.
Arena.AI, una plataforma de comparaciĂ³n y evaluaciĂ³n de modelos de lenguaje, analizĂ³ el mismo problema desde otra perspectiva. El servicio recopila miles de votos anĂ³nimos de usuarios que comparan respuestas en categorĂas como texto, visiĂ³n, documentos, programaciĂ³n y agentes, y luego clasifica los modelos mediante el sistema Elo, utilizado originalmente en el ajedrez para medir el rendimiento relativo. Cuando dos modelos responden de forma anĂ³nima y los usuarios eligen cuĂ¡l prefieren, la puntuaciĂ³n refleja la calidad percibida por las personas, no el funcionamiento interno de la infraestructura.
The community has been asking how Claude Fable 5 compares before vs. after its latest re-deployment.
We collected thousands of votes on the new endpoint across Arenas – Text, Vision, Document, Code, and Agent – and here’s an early score preview.
En otras palabras, cuando Claude Fable 5 es quien realmente responde, su rendimiento sigue siendo el esperado. La frustraciĂ³n expresada en X no parece deberse a que el modelo haya empeorado, sino a que los usuarios pagan por Fable 5 y con frecuencia reciben respuestas generadas por otro modelo.
Los usuarios que utilizan Claude para escribir, analizar documentos, investigar o realizar consultas especializadas probablemente notarĂ¡n pocos o ningĂºn cambio. Esas son precisamente las categorĂas en las que Arena.AI observĂ³ un rendimiento estable o incluso ligeramente superior. Si existe alguna mejora, probablemente sea demasiado pequeña para percibirse claramente, sobre todo en tareas subjetivas como la escritura creativa.
En la prĂ¡ctica, escritores, investigadores y analistas seguirĂ¡n obteniendo el desempeño esperado de Fable 5. Para los desarrolladores, la situaciĂ³n es diferente.
La diferencia entre el desplome registrado por BridgeBench y la estabilidad observada por Arena se explica por el tipo de tareas evaluadas. BridgeBench utiliza numerosas pruebas de depuraciĂ³n y reparaciĂ³n de cĂ³digo, exactamente el tipo de solicitudes que activan el nuevo clasificador. Arena, en cambio, recopila una gama mucho mĂ¡s amplia de consultas realizadas por usuarios, la mayorĂa de las cuales no se parecen a cĂ³digo destinado a explotar vulnerabilidades.
En Resumen Conoce todo sobre Stable Diffusion, una herramienta de inteligencia artificial de cĂ³digo abierto que genera imĂ¡genes a partir de detalladas descripciones de texto…
En Resumen Grok-3 domina la escritura creativa al superar a Claude 3.5 Sonnet en narrativa, con personajes sĂ³lidos y una trama mĂ¡s envolvente. Es menos…
En Resumen Anthropic lanzĂ³ Claude Opus 4.8 a $5 por millĂ³n de tokens de entrada, con mejoras en matemĂ¡ticas y programaciĂ³n. El modelo resolviĂ³ correctamente…
En Resumen Se analizĂ³ la interacciĂ³n de cuatro IA para determinar cuĂ¡l ofrece la conversaciĂ³n mĂ¡s humana. Sesame destacĂ³ por su fluidez y naturalidad, superando…
La tienda esta cerrada por el momento. Ninguna compra serĂ¡ procesada. Por favor, no realice ningun pedido. Dismiss
Report
There was a problem reporting this post.
Block Member?
Please confirm you want to block this member.
You will no longer be able to:
See blocked member's posts
Mention this member in posts
Invite this member to groups
Message this member
Add this member as a connection
Please note:
This action will also remove this member from your connections and send a report to the site admin.
Please allow a few minutes for this process to complete.
Responses