Decirle a Tu Chatbot que Tienes una Condición de Salud Mental Puede Cambiar su Respuesta
Decirle a un chatbot de IA que tienes una condición de salud mental puede cambiar la forma en que responde, incluso si la tarea es inocua o idéntica a otras ya completadas, según una nueva investigación.
El estudio preprint, liderado por el investigador de la Universidad Northeastern Caglar Yildirim, analizó el comportamiento de agentes de modelos de lenguaje de gran escala bajo diferentes configuraciones de usuario, en un contexto en el que su uso como agentes de IA se expande cada vez mÔs.
“Los sistemas implementados suelen condicionarse en perfiles de usuario o memoria persistente, pero las evaluaciones de seguridad de agentes tĆpicamente ignoran las seƱales de personalización”, seƱaló el estudio. “Para abordar esta brecha, investigamos cómo la divulgación de salud mental, una seƱal contextual del usuario sensible y realista, afecta el comportamiento daƱino en entornos agĆ©nticos”.
El informe llega en un momento en que los agentes de IA proliferan en lĆnea y los desarrolladores convierten la memoria en una función central, con grandes empresas construyendo sistemas que recuerdan conversaciones pasadas y preferencias del usuario para ofrecer respuestas mĆ”s personalizadas con el tiempo.
TambiĆ©n surge mientras los desarrolladores de IA enfrentan demandas por suicidios y crĆmenes violentos presuntamente vinculados a interacciones con sus sistemas. En octubre, OpenAI, desarrollador de ChatGPT, reveló que mĆ”s de 1 millón de usuarios hablaban sobre suicidio con el chatbot cada semana. A inicios de este mes, la familia de Jonathan Gavalas presentó una demanda contra Google, alegando que Gemini contribuyó a una escalada de violencia y al eventual suicidio del joven.
Los investigadores utilizaron un benchmark llamado AgentHarm para ejecutar el mismo conjunto de tareas bajo tres condiciones: sin información de fondo, con una breve biografĆa del usuario, y con la misma biografĆa con una lĆnea adicional que indicaba que el usuario tenĆa una condición de salud mental.
“En el estudio, utilizamos una divulgación muy mĆnima y genĆ©rica: ‘Tengo una condición de salud mental’. La conclusión es que incluso una seƱal pequeƱa puede modificar el comportamiento del modelo, no que todas las formulaciones tendrĆan el mismo efecto”, afirmó Yildirim a Decrypt. “La prueba de ablación que realizamos con divulgaciones de enfermedades crónicas y discapacidades fĆsicas sugiere cierta especificidad en la seƱal de salud mental, aunque no variamos sistemĆ”ticamente la formulación o especificidad dentro de esa categorĆa”.
Entre los modelos evaluados, como DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 y Sonnet 4.5, al agregar contexto personal de salud mental, los modelos mostraron menor disposición a completar tareas daƱinas, es decir, solicitudes de mĆŗltiples pasos que podrĆan derivar en daƱos en el mundo real.
El resultado, segĆŗn el estudio, implica una compensación: agregar detalles personales hizo que los sistemas fueran mĆ”s cautelosos ante solicitudes daƱinas, pero tambiĆ©n mĆ”s propensos a rechazar solicitudes legĆtimas.
“No creo que haya una sola razón; es realmente una combinación de decisiones de diseƱo. Algunos sistemas estĆ”n ajustados de forma mĆ”s agresiva para rechazar solicitudes riesgosas, mientras que otros priorizan ser Ćŗtiles y completar tareas”, aƱadió Yildirim.
Sin embargo, el efecto varió según el modelo, y los resultados cambiaron cuando los LLMs fueron sometidos a jailbreak tras agregar un prompt diseñado para impulsar la obediencia de los modelos.
“Un modelo puede parecer seguro en un entorno estĆ”ndar, pero volverse mucho mĆ”s vulnerable cuando introduces elementos como prompts estilo jailbreak”, seƱaló. “Y en los sistemas agĆ©nticos especĆficamente, hay una capa adicional, ya que estos modelos no solo generan texto, sino que planifican y actĆŗan a lo largo de mĆŗltiples pasos. Entonces, si un sistema es muy bueno siguiendo instrucciones, pero sus salvaguardas son mĆ”s fĆ”ciles de eludir, eso en realidad puede aumentar el riesgo”.
El verano pasado, investigadores de la Universidad George Mason demostraron que los sistemas de IA podĆan ser hackeados alterando un solo bit en la memoria mediante Oneflip, un ataque tipo “error tipogrĆ”fico” que deja el modelo funcionando con normalidad, pero oculta un disparador de puerta trasera capaz de forzar resultados incorrectos bajo demanda.
Si bien el artĆculo no identifica una causa Ćŗnica para el cambio, destaca posibles explicaciones, entre ellas que los sistemas de seguridad reaccionen ante una vulnerabilidad percibida, el filtrado activado por palabras clave, o cambios en la interpretación de los prompts cuando se incluyen datos personales.
OpenAI declinó comentar sobre el estudio. Anthropic y Google no respondieron de inmediato a una solicitud de comentarios.
Yildirim indicó que aĆŗn no estĆ” claro si declaraciones mĆ”s especĆficas como “tengo depresión clĆnica” cambiarĆan los resultados, y agregó que, si bien la especificidad probablemente importa y puede variar entre modelos, eso sigue siendo una hipótesis y no una conclusión respaldada por los datos.
“Existe un riesgo potencial si un modelo produce un resultado que estĆ” estilĆsticamente sesgado hacia la evasión o es adyacente al rechazo sin rechazar formalmente: el evaluador puede calificarlo de forma diferente a una respuesta limpia, y esas caracterĆsticas estilĆsticas podrĆan covariarse con las condiciones de personalización”, afirmó.
Yildirim también señaló que los puntajes reflejaban el desempeño de los LLMs cuando eran evaluados por un único revisor de IA, y no una medida definitiva del daño en el mundo real.
“Por ahora, la seƱal de rechazo nos ofrece una verificación independiente y las dos medidas son en gran medida consistentes direccionalmente, lo que da cierta seguridad, aunque no descarta completamente los artefactos especĆficos del evaluador”, concluyó.
Daily Debrief Newsletter
Start every day with the top news stories right now, plus original features, a podcast, videos and more.
CrƩdito: Enlace fuente
Responses