Decirle a Tu Chatbot que Tienes una Condición de Salud Mental Puede Cambiar su Respuesta

Decirle a un chatbot de IA que tienes una condición de salud mental puede cambiar la forma en que responde, incluso si la tarea es inocua o idéntica a otras ya completadas, según una nueva investigación.

El estudio preprint, liderado por el investigador de la Universidad Northeastern Caglar Yildirim, analizó el comportamiento de agentes de modelos de lenguaje de gran escala bajo diferentes configuraciones de usuario, en un contexto en el que su uso como agentes de IA se expande cada vez mÔs.

“Los sistemas implementados suelen condicionarse en perfiles de usuario o memoria persistente, pero las evaluaciones de seguridad de agentes tĆ­picamente ignoran las seƱales de personalización”, seƱaló el estudio. “Para abordar esta brecha, investigamos cómo la divulgación de salud mental, una seƱal contextual del usuario sensible y realista, afecta el comportamiento daƱino en entornos agĆ©nticos”.

El informe llega en un momento en que los agentes de IA proliferan en línea y los desarrolladores convierten la memoria en una función central, con grandes empresas construyendo sistemas que recuerdan conversaciones pasadas y preferencias del usuario para ofrecer respuestas mÔs personalizadas con el tiempo.

También surge mientras los desarrolladores de IA enfrentan demandas por suicidios y crímenes violentos presuntamente vinculados a interacciones con sus sistemas. En octubre, OpenAI, desarrollador de ChatGPT, reveló que mÔs de 1 millón de usuarios hablaban sobre suicidio con el chatbot cada semana. A inicios de este mes, la familia de Jonathan Gavalas presentó una demanda contra Google, alegando que Gemini contribuyó a una escalada de violencia y al eventual suicidio del joven.

Los investigadores utilizaron un benchmark llamado AgentHarm para ejecutar el mismo conjunto de tareas bajo tres condiciones: sin información de fondo, con una breve biografía del usuario, y con la misma biografía con una línea adicional que indicaba que el usuario tenía una condición de salud mental.

“En el estudio, utilizamos una divulgación muy mĆ­nima y genĆ©rica: ‘Tengo una condición de salud mental’. La conclusión es que incluso una seƱal pequeƱa puede modificar el comportamiento del modelo, no que todas las formulaciones tendrĆ­an el mismo efecto”, afirmó Yildirim a Decrypt. “La prueba de ablación que realizamos con divulgaciones de enfermedades crónicas y discapacidades fĆ­sicas sugiere cierta especificidad en la seƱal de salud mental, aunque no variamos sistemĆ”ticamente la formulación o especificidad dentro de esa categorĆ­a”.

Entre los modelos evaluados, como DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 y Sonnet 4.5, al agregar contexto personal de salud mental, los modelos mostraron menor disposición a completar tareas dañinas, es decir, solicitudes de múltiples pasos que podrían derivar en daños en el mundo real.

El resultado, según el estudio, implica una compensación: agregar detalles personales hizo que los sistemas fueran mÔs cautelosos ante solicitudes dañinas, pero también mÔs propensos a rechazar solicitudes legítimas.

“No creo que haya una sola razón; es realmente una combinación de decisiones de diseƱo. Algunos sistemas estĆ”n ajustados de forma mĆ”s agresiva para rechazar solicitudes riesgosas, mientras que otros priorizan ser Ćŗtiles y completar tareas”, aƱadió Yildirim.

Sin embargo, el efecto varió según el modelo, y los resultados cambiaron cuando los LLMs fueron sometidos a jailbreak tras agregar un prompt diseñado para impulsar la obediencia de los modelos.

“Un modelo puede parecer seguro en un entorno estĆ”ndar, pero volverse mucho mĆ”s vulnerable cuando introduces elementos como prompts estilo jailbreak”, seƱaló. “Y en los sistemas agĆ©nticos especĆ­ficamente, hay una capa adicional, ya que estos modelos no solo generan texto, sino que planifican y actĆŗan a lo largo de mĆŗltiples pasos. Entonces, si un sistema es muy bueno siguiendo instrucciones, pero sus salvaguardas son mĆ”s fĆ”ciles de eludir, eso en realidad puede aumentar el riesgo”.

El verano pasado, investigadores de la Universidad George Mason demostraron que los sistemas de IA podĆ­an ser hackeados alterando un solo bit en la memoria mediante Oneflip, un ataque tipo “error tipogrĆ”fico” que deja el modelo funcionando con normalidad, pero oculta un disparador de puerta trasera capaz de forzar resultados incorrectos bajo demanda.

Si bien el artículo no identifica una causa única para el cambio, destaca posibles explicaciones, entre ellas que los sistemas de seguridad reaccionen ante una vulnerabilidad percibida, el filtrado activado por palabras clave, o cambios en la interpretación de los prompts cuando se incluyen datos personales.

OpenAI declinó comentar sobre el estudio. Anthropic y Google no respondieron de inmediato a una solicitud de comentarios.

Yildirim indicó que aĆŗn no estĆ” claro si declaraciones mĆ”s especĆ­ficas como “tengo depresión clĆ­nica” cambiarĆ­an los resultados, y agregó que, si bien la especificidad probablemente importa y puede variar entre modelos, eso sigue siendo una hipótesis y no una conclusión respaldada por los datos.

“Existe un riesgo potencial si un modelo produce un resultado que estĆ” estilĆ­sticamente sesgado hacia la evasión o es adyacente al rechazo sin rechazar formalmente: el evaluador puede calificarlo de forma diferente a una respuesta limpia, y esas caracterĆ­sticas estilĆ­sticas podrĆ­an covariarse con las condiciones de personalización”, afirmó.

Yildirim también señaló que los puntajes reflejaban el desempeño de los LLMs cuando eran evaluados por un único revisor de IA, y no una medida definitiva del daño en el mundo real.

“Por ahora, la seƱal de rechazo nos ofrece una verificación independiente y las dos medidas son en gran medida consistentes direccionalmente, lo que da cierta seguridad, aunque no descarta completamente los artefactos especĆ­ficos del evaluador”, concluyó.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.

CrƩdito: Enlace fuente

Related Articles

Responses

Your email address will not be published. Required fields are marked *