PUBLICIDAD

Actualidad y Artículos | Inteligencia artificial   Seguir 146   Favorito

Me Gusta   3 3 Comentar  2 2

El algoritmo aprendió tus sesgos, escribe mejor que tú y aun así no sirve: tres lecciones incómodas sobre la IA en psiquiatría



0%
Artículo | Fecha de publicación: 12/04/2026
Artículo revisado por nuestra redacción

El modelo que predice quién va a agredir — y se equivoca siempre con los mismos Imagina que en tu unidad de agudos implantan un sistema de inteligencia artificial que predice qué pacientes tienen riesgo de incidente agresivo durante el ingreso. El sistema se entrena con años de evaluaciones clínicas del propio servicio. Tiene buen rendimiento general. La direcci&...

PUBLICIDAD

Contenido para usuarios registrados
Este contenido es exclusivo para suscriptores.

Crea tu cuenta gratis y léelo completo ahora.

¿Ya estás registrado? Inicia sesión aquí .

Regístrate gratis Iniciar sesión

El modelo que predice quién va a agredir — y se equivoca siempre con los mismos


Imagina que en tu unidad de agudos implantan un sistema de inteligencia artificial que predice qué pacientes tienen riesgo de incidente agresivo durante el ingreso. El sistema se entrena con años de evaluaciones clínicas del propio servicio. Tiene buen rendimiento general. La dirección está satisfecha.


Wang y colaboradores del Centre for Addiction and Mental Health de Toronto publicaron esta semana el primer análisis de equidad realizado sobre este tipo de modelos en psiquiatría aguda, y el hallazgo es incómodo: los modelos sobreestiman sistemáticamente el riesgo de agresión en personas de grupos raciales marginalizados, en hombres y en personas con inestabilidad residencial. Las tasas de falsos positivos —casos en los que el modelo predice agresión donde no la habrá— son significativamente más altas exactamente en los grupos que ya son más vigilados clínicamente por razones ajenas a su riesgo real.


La causa no es un error técnico del algoritmo. Es algo más difícil de corregir: el modelo aprendió de miles de evaluaciones clínicas reales, y esas evaluaciones ya incorporaban los sesgos estructurales del sistema sanitario. El psiquiatra que durante años valoró como "más impredecible" a un paciente sin hogar de origen magrebí que a un paciente con piso y trabajo, con independencia del cuadro clínico real, entrenó sin saberlo al algoritmo para repetir ese patrón a escala.


Dicho de otra manera: cuando implementas IA entrenada con tus datos históricos, no estás automatizando la psiquiatría. Estás automatizando tus sesgos y dándoles una pátina de objetividad matemática.


La implicación práctica es directa. Cualquier herramienta de predicción de riesgo que evalúes para tu servicio debería incluir, como requisito no negociable, un análisis de equidad por subgrupos antes de desplegarse. No como ejercicio teórico, sino porque el AI Act europeo ya lo contempla implícitamente para sistemas de alto riesgo, y la predicción de agresividad en psiquiatría aguda es, sin ninguna duda, un sistema de alto riesgo.


El modelo que escribe mejor que un psiquiatra — y sin embargo no sirve


Cambio de escenario. Un grupo de investigadores japoneses pidió a 70 psiquiatras, 48 internistas y cuatro modelos de lenguaje que redactaran la nota de primera visita de dos casos estandarizados: una depresión mayor y una esquizofrenia. Luego analizaron las notas con métricas de procesamiento del lenguaje natural.


El resultado superficial habla bien de la IA: los modelos reproducen bien el formato, la longitud, el vocabulario frecuente. Una nota de LLM, a primera vista, parece una nota clínica correcta, incluso más ordenada que muchas notas humanas.


El resultado real habla muy mal: los modelos fracasan en exactamente lo que hace valiosa una nota psiquiátrica. No generan razonamiento diferencial. No integran el riesgo de manera clínicamente coherente. No priorizan la información que importa. Las notas de los psiquiatras tenían mayor diversidad léxica, más formulación hipotética —"podría tratarse de", "habría que descartar"— y una estructura implícita de toma de decisiones que el LLM no reproduce.


La nota del modelo parece bien escrita porque sigue las convenciones formales del género. Pero leerla como psiquiatra con experiencia revela que no hay nadie pensando detrás. Es el equivalente a un residente que ha memorizado cómo se estructura una nota sin entender por qué se estructura así.


Esto tiene una aplicación directa si estás evaluando herramientas de documentación asistida por IA, los llamados ambient scribes o generadores automáticos de notas. La pregunta que hay que hacerse no es si la nota tiene buena ortografía y formato correcto. La pregunta es: ¿esta nota razona? ¿Refleja una jerarquía clínica real? ¿Alguien que la lea sabe qué pensó el médico y por qué? Si la respuesta es no, la herramienta es un riesgo clínico con apariencia de eficiencia.


El modelo con AUC de 0,85 que no funciona en tu consulta


El tercer estudio de la semana es el más directo de todos. Chen, Schultebraucks y Wu publican en Translational Psychiatry lo que llaman con honestidad inusual una "historia de advertencia" sobre la IA en psiquiatría.


Su argumento central: la mayoría de los modelos publicados con resultados espectaculares no superan la validación externa. Funcionan bien en los datos con que se entrenaron. Cuando se aplican en otro hospital, en otra población, o incluso en el mismo centro un año después, el rendimiento cae de forma sustancial. El AUC de 0,85 que aparece en el abstract se convierte en 0,64 en producción real.


Las tres condiciones mínimas que proponen para una implementación responsable son sencillas de enunciar y difíciles de cumplir: validación externa prospectiva antes de desplegar, mecanismo de retroalimentación clínica continua que permita al modelo adaptarse cuando su entorno cambia, y formación del clínico que lo usa en métricas de rendimiento y limitaciones reales del sistema.


Esa tercera condición es la más frecuentemente ignorada. Un psiquiatra que no entiende qué significa un AUC de 0,72, cuál es la diferencia entre sensibilidad y valor predictivo positivo, o por qué un modelo puede tener buen rendimiento global y ser inútil en el subgrupo de pacientes que más le importan, no puede usar responsablemente ninguna herramienta predictiva. No es un problema de actitud hacia la tecnología. Es un problema de formación que el sistema sanitario todavía no ha incorporado al currículo de especialidad.


Lo que los tres estudios dicen juntos


Hay una tentación de leer estos tres trabajos como argumentos en contra de la IA en psiquiatría. No lo son. Son argumentos en contra de la IA mal implementada, acrítica e irresponsable, que es exactamente la que más abunda en este momento.


La IA que predice sin análisis de equidad amplifica injusticia. La IA que documenta sin razonar crea una ilusión de calidad. La IA que se valida internamente y se despliega sin seguimiento genera una falsa seguridad que puede costar más que la ausencia de la herramienta.


El psiquiatra que entiende esos tres problemas no es un escéptico de la tecnología. Es el profesional que la industria necesita como interlocutor para que las herramientas que lleguen a la consulta sean las que realmente sirven.


Comentado por Dr. Pedro Moreno. Editor senior de psiquiatria.com


Referencias
Wang Y, et al. Fairness Analysis of Machine Learning Predictions of Aggression in Acute Psychiatric Care. npj Mental Health Research. 2026.
https://doi.org/10.1038/s44184-026-00194-6

Comparative Analysis of Japanese Clinical Note Styles Between Physicians and LLMs Using Identical Psychiatric Cases. JMIR Formative Research. 2026.
https://doi.org/10.2196/85671

Chen ZS, Schultebraucks K, Wu W. A Cautionary Tale for AI and Machine Learning in Psychiatry. Translational Psychiatry. 2026.
https://doi.org/10.1038/s41398-026-03930-w

Comentarios de los usuarios



No hay ningun comentario, se el primero en comentar
79474

Daridrexant
Publicidad

Próximos cursos

▶️ VÍDEO

Terapia de resolución de problemas

Inicio: 17/06/2026 |Precio: 180€