La Mitad de Consejos de Salud de la IA Son Incorrectos—Y Parecen Perfectamente Correctos
En Resumen
- Un estudio de UCLA y BMJ Open reveló que el 49,6% de las respuestas médicas de cinco chatbots populares fueron incorrectas o engañosas.
- Grok fue el peor evaluado: el 58% de sus respuestas resultaron problemáticas, vinculado a la desinformación que circula en X.
- Los investigadores advirtieron que los modelos casi nunca admiten ignorancia y se despliegan a escala entre usuarios no expertos.
Casi la mitad de las respuestas sobre salud y medicina que ofrecen los chatbots de IA más populares de hoy son incorrectas, engañosas o peligrosamente incompletas, y se presentan con total confianza. Esa es la conclusión principal de un nuevo estudio revisado por pares publicado el 14 de abril en BMJ Open.
Investigadores de UCLA, la Universidad de Alberta y Wake Forest evaluaron cinco chatbots —Gemini, DeepSeek, Meta AI, ChatGPT y Grok— con 250 preguntas sobre salud relacionadas con cáncer, vacunas, cĂ©lulas madre, nutriciĂłn y rendimiento deportivo. Los resultados: el 49,6% de las respuestas fueron problemáticas. El 30% fueron “algo problemáticas” y el 19,6% “muy problemáticas”, es decir, el tipo de respuesta que podrĂa llevar a alguien a buscar un tratamiento ineficaz o peligroso.
Para someter a los modelos a pruebas de estrés, el equipo empleó un enfoque adversarial, formulando deliberadamente las preguntas para empujar a los chatbots hacia consejos incorrectos. Las preguntas incluyeron si el 5G causa cáncer, qué terapias alternativas son mejores que la quimioterapia y cuánta leche cruda conviene consumir para mejorar la salud.
“Por defecto, los chatbots no acceden a datos en tiempo real, sino que generan respuestas infiriendo patrones estadĂsticos de sus datos de entrenamiento y prediciendo secuencias de palabras probables”, escriben los autores. “No razonan ni ponderan evidencia, ni son capaces de emitir juicios Ă©ticos o basados en valores”.
Ese es el problema central. Los chatbots no consultan a un médico, sino que hacen coincidencias de patrones en texto. Y hacer coincidencias de patrones en internet, donde la desinformación se propaga más rápido que las correcciones, produce exactamente este tipo de resultado.
Los investigadores continĂşan: “Esta limitaciĂłn conductual significa que los chatbots pueden reproducir respuestas que suenan autorizadas pero que son potencialmente defectuosas”. De las 250 preguntas, solo dos generaron una negativa a responder, ambas de Meta AI, sobre esteroides anabĂłlicos y tratamientos alternativos contra el cáncer. Todos los demás chatbots siguieron respondiendo.
El rendimiento variĂł segĂşn el tema. Las vacunas y el cáncer tuvieron los mejores resultados, en parte porque la investigaciĂłn de alta calidad sobre esos temas está bien estructurada y ampliamente reproducida en lĂnea. La nutriciĂłn tuvo el peor desempeño estadĂstico de todas las categorĂas del estudio, seguida de cerca por el rendimiento deportivo. Si le has preguntado a una IA si la dieta carnĂvora es saludable, la respuesta que recibiste probablemente no estaba respaldada por el consenso cientĂfico.
Grok destacó por las razones equivocadas. El chatbot de Elon Musk fue el peor de todos los modelos evaluados. De sus 50 respuestas, 29 (58%) fueron calificadas como problemáticas en general, la proporción más alta entre los cinco chatbots. Quince de ellas (30%) fueron muy problemáticas, significativamente más de lo esperado bajo una distribución aleatoria. Los investigadores vinculan esto directamente a los datos de entrenamiento de Grok: X es una plataforma conocida por propagar desinformación de salud de forma rápida y masiva.
Las citas fueron un desastre aparte. En todos los modelos, la puntuaciĂłn mediana de completitud de las referencias fue apenas del 40%, y ningĂşn chatbot produjo una lista de referencias completamente precisa. Los modelos alucinaron autores, revistas y tĂtulos. DeepSeek incluso lo reconociĂł: el modelo le dijo a los investigadores que sus referencias fueron generadas a partir de patrones de datos de entrenamiento “y pueden no corresponder a fuentes reales y verificables”.
El problema de legibilidad lo agrava todo. Todas las respuestas de los chatbots obtuvieron una puntuaciĂłn en el rango “DifĂcil” en la escala Flesch Reading Ease, equivalente al nivel universitario de segundo a cuarto año. Eso supera la recomendaciĂłn de la AsociaciĂłn MĂ©dica Americana, que establece que los materiales de educaciĂłn para pacientes no deben superar el nivel de sexto grado.
En otras palabras, estos chatbots aplican el mismo truco que suelen usar los polĂticos y los debatientes profesionales: lanzarte tantos tecnicismos en tan poco tiempo que terminas pensando que saben más de lo que realmente saben. Mientras más difĂcil es entender algo, más fácil es malinterpretarlo.
Los hallazgos se hacen eco de un estudio de Oxford de febrero de 2026 cubierto por Decrypt que encontró que los consejos médicos de la IA no son mejores que los métodos tradicionales de autodiagnóstico. También coinciden con preocupaciones más amplias sobre chatbots de IA que ofrecen orientación inconsistente dependiendo de cómo se formulan las preguntas.
“A medida que el uso de los chatbots de IA continĂşa expandiĂ©ndose, nuestros datos destacan la necesidad de educaciĂłn pĂşblica, formaciĂłn profesional y supervisiĂłn regulatoria para garantizar que la IA generativa apoye, en lugar de erosionar, la salud pĂşblica”, concluyen los autores.
El estudio solo evaluĂł cinco chatbots de acceso gratuito, y el mĂ©todo de prompts adversariales puede sobreestimar las tasas de fallo en el mundo real. Sin embargo, los autores son directos: el problema no son los casos extremos. Es que estos modelos se despliegan a escala, los usan personas no expertas como si fueran motores de bĂşsqueda, y están diseñados para casi nunca decir “no sĂ©”.
Daily Debrief Newsletter
Start every day with the top news stories right now, plus original features, a podcast, videos and more.
Crédito: Enlace fuente
Responses