Pocas áreas de la psiquiatría concentran tanta urgencia clínica y tanto potencial de daño como la evaluación del riesgo suicida. Es también, por eso mismo, uno de los campos donde la inteligencia artificial ha avanzado con más intensidad en los últimos dos años. Los modelos de lenguaje de gran escala — los mismos que alimentan Ch...
Pocas áreas de la psiquiatría concentran tanta urgencia clínica y tanto potencial de daño como la evaluación del riesgo suicida. Es también, por eso mismo, uno de los campos donde la inteligencia artificial ha avanzado con más intensidad en los últimos dos años. Los modelos de lenguaje de gran escala — los mismos que alimentan ChatGPT, Claude o Gemini — están siendo evaluados sistemáticamente como herramientas de cribado, de apoyo a la decisión clínica y de formación profesional. Los resultados son, a la vez, más prometedores y más inquietantes de lo que los titulares suelen reflejar.
Lo que los LLMs sí pueden hacer
Un estudio publicado en JMIR evaluó la competencia de tres de los modelos más utilizados — ChatGPT-4o, Claude 3.5 Sonnet y Gemini 1.5 Pro — para distinguir respuestas apropiadas e inapropiadas ante pacientes con ideación suicida, utilizando el Suicide Intervention Response Inventory (SIRI-2), un instrumento estándar de formación para profesionales de salud mental. El hallazgo principal es relevante: dos de los tres modelos igualaron o superaron el rendimiento de profesionales de salud mental en los extremos del riesgo — es decir, supieron identificar cuándo una respuesta clínica era claramente correcta o claramente inadecuada ante situaciones de riesgo muy alto o muy bajo.
En paralelo, un estudio publicado en Scientific Reports evaluó el rendimiento de Mixtral-8x7B — un modelo de código abierto — para generar valoraciones estructuradas de riesgo suicida sobre transcripciones reales de líneas de crisis para jóvenes, usando la escala NGASR. El resultado más llamativo: con prompting zero-shot a temperatura cero, el modelo alcanzó una fiabilidad perfecta entre valoraciones repetidas (α = 1.00 para riesgo alto y muy alto). La consistencia interna del modelo fue, en ese régimen de configuración, superior a la del equipo de expertos humanos.
El problema de los rangos intermedios
Hasta aquí, las buenas noticias. El límite aparece con claridad en ambos estudios cuando se analiza lo que ocurre fuera de los extremos. Ni los modelos comerciales ni el open-source distinguen de forma fiable entre riesgo bajo, medio y alto cuando la situación es ambigua — que es precisamente el escenario más frecuente en la práctica clínica real. En el estudio de JMIR, la probabilidad de que los LLMs respondieran directamente a una consulta no variaba de forma estadísticamente significativa entre los niveles de riesgo bajo, medio y alto. Los modelos respondían como si el riesgo fuera bajo cuando no lo era. En el de Scientific Reports, la validez clínica ítem por ítem — la capacidad de identificar factores de riesgo específicos como desesperanza, intentos previos o aislamiento social — fue pobre en todos los modelos evaluados.
La conclusión compartida de ambos equipos investigadores es la misma: los LLMs pueden tener utilidad como herramientas de cribado inicial o de apoyo a la formación, pero no están en condiciones de realizar evaluaciones clínicas detalladas de riesgo suicida. El papel es complementario, no sustitutivo.
Razonar en voz alta: la apuesta por la transparencia
El avance más singular de las últimas semanas viene de un estudio publicado en PMC que aborda el problema desde un ángulo diferente: en lugar de usar LLMs como clasificadores, los usa como modelos de razonamiento explícito. El equipo analizó casi 12.000 historias de alta hospitalaria — médica y quirúrgica — correspondientes a casi 2.000 individuos que habían fallecido por suicidio, junto con controles emparejados. El modelo utilizado fue una versión destilada de Llama entrenada con DeepSeek R1, ejecutable en hardware de consumo doméstico.
El resultado en términos de discriminación fue modesto — comparable a los esfuerzos previos con machine learning clásico, y sin alcanzar aún el umbral necesario para el despliegue clínico. Pero la aportación metodológica es notable: al aplicar modelado de tópicos LDA sobre las cadenas de razonamiento del modelo, los investigadores pudieron identificar qué conceptos guiaban las predicciones correctas e incorrectas. Las benzodiacepinas, la recaída y la depresión emergieron como los marcadores más fuertemente asociados al resultado. El modelo, en cierto modo, explicaba su propio razonamiento.
La implicación práctica más relevante para el contexto europeo es de orden regulatorio: un modelo ejecutable en local, sin conexión a servidores externos, elimina la transferencia de datos de salud a terceros y abre una vía de cumplimiento directo con el artículo 9 del RGPD. No es un modelo clínicamente desplegable hoy, pero señala la dirección técnica correcta para entornos con restricciones estrictas de privacidad.
El preprint que mapea el terreno completo
El preprint publicado en arXiv a mediados de marzo — una scoping review de 36 estudios sobre intervenciones digitales con IA en salud mental — sitúa estos hallazgos en un contexto más amplio. Los agentes conversacionales y los LLMs concentran sus casos de uso demostrados en triaje, comunicación empática y apoyo en crisis. La prevención poblacional y la educación clínica están, por contraste, significativamente subdesarrolladas. Y el sesgo algorítmico, junto con la privacidad de los datos, aparece como el desafío recurrente en todas las fases del ciclo asistencial.
Lo que emerge del conjunto es una imagen matizada pero coherente: la IA tiene un lugar legítimo y útil en el campo de la prevención del suicidio, pero ese lugar está más cerca del apoyo a la formación y del cribado preliminar que de la evaluación clínica autónoma. Los modelos que razonan en voz alta — transparentes, auditables, ejecutables en local — representan la línea de desarrollo más prometedora para un uso responsable en el entorno regulatorio europeo. Llegar a la consulta, sin embargo, requiere todavía más validación, más equidad en los datos de entrenamiento y más rigor en la definición de qué significa "funcionar" en este contexto.
Referencias
McBain RK, Cantor JH, Zhang LA, et al. Competency of large language models in evaluating appropriate responses to suicidal ideation: comparative study. Journal of Medical Internet Research. 2025;27:e67891.
https://doi.org/10.2196/67891
Thomas, J. et al. Large language model performance versus human expert ratings in automated suicide risk assessment. Scientific Reports. 2025.
https://doi.org/10.1038/s41598-025-22402-7
McCoy Th et al. Reasoning language models for more transparent prediction of suicide risk. PMC. 2025–2026.
https://pmc.ncbi.nlm.nih.gov/articles/PMC12067846/
Ni Y et al. A scoping review of AI-driven digital interventions in mental health care: mapping applications across screening, support, monitoring, prevention, and clinical education. arXiv. 2026.
https://arxiv.org/abs/2603.16204