Llevo décadas trabajando en unidades de agudos y conozco la escena: paciente en habitación de observación, control visual cada quince minutos, una auxiliar que se asoma, anota, vuelve a su puesto. En ese hueco de minuto y medio, el paciente se araña el antebrazo con la tapa de un yogur o la esquina de un portarretratos. Eso es lo que las cámaras con IA prometen c...
Llevo décadas trabajando en unidades de agudos y conozco la escena: paciente en habitación de observación, control visual cada quince minutos, una auxiliar que se asoma, anota, vuelve a su puesto. En ese hueco de minuto y medio, el paciente se araña el antebrazo con la tapa de un yogur o la esquina de un portarretratos. Eso es lo que las cámaras con IA prometen cazar desde hace dos años en las presentaciones comerciales que llegan a las direcciones médicas. Y eso es exactamente lo que dos trabajos recientes cuestionan con datos.
El primer golpe: el "sim-to-real gap" en detección automática de autolesiones
El grupo de Hyun Ghang Jeong (Universidad de Corea, Hospital Guro), en colaboración con la empresa coreana Ziovision, ha publicado en Scientific Reports el primer benchmark serio de modelos de reconocimiento de acción aplicados a la detección de autolesiones en planta psiquiátrica cerrada. Construyeron un dataset público de 1.120 vídeos simulados de conductas de corte en un estudio que replicaba las condiciones de una sala —iluminación, mobiliario, ropa, ángulos de cámara— y lo validaron contra 118 vídeos clínicos reales, anonimizados, de su propia unidad.
Evaluaron seis arquitecturas de deep learning, tanto convolucionales como basadas en transformer. El mejor modelo, VideoMAEv2, alcanzó un F1 de 0,65 en el dataset simulado (validación cruzada 7-fold LOAO). Al aplicarlo a los vídeos reales, el F1 medio bajó a 0,61. En cualquier dashboard corporativo esa diferencia se pinta como "degradación leve". En la sala, donde el coste de un falso negativo es una cicatriz y el de un falso positivo es una contención innecesaria, un F1 de 0,61 es sencillamente insuficiente.
Los autores son transparentes sobre dónde falla el modelo: gestos sutiles y repetitivos —rascado crónico, picoteo de una costra, tirones de piel— que todo el que ha hecho una guardia reconoce inmediatamente como comportamiento clínicamente relevante, y que las redes no distinguen bien del movimiento normal. Tampoco manejan bien la oclusión (el paciente se tapa con la manta, se mete en el baño) ni la variabilidad postural real. El mensaje no es que la visión por ordenador no sirva; es que el salto del estudio controlado al ingreso real sigue siendo un precipicio, y que cualquier despliegue clínico inmediato al nivel tecnológico actual es prematuro.
El segundo golpe: cuando el modelo sí funciona, puede discriminar
La segunda pieza viene de Toronto. El equipo liderado por Yifan Wang (antes en KCNI-CAMH, hoy en la Universidad de Ottawa), bajo la supervisión de Laura Sikstrom y Marta Maslej, entrenó un modelo de machine learning sobre la historia clínica electrónica estructurada de 17.703 pacientes ingresados en el CAMH entre enero de 2016 y mayo de 2022 (42.719 jornadas de observación), con el objetivo de predecir incidentes agresivos. Es el primer análisis de equidad algorítmica de esta magnitud en psiquiatría de agudos.
El modelo predice. También discrimina. Las tasas de falsos positivos fueron significativamente mayores en personas negras y de origen medio-oriental, en varones, en pacientes ingresados a través de un dispositivo policial y en aquellos con vivienda inestable o en recursos tutelados. Dicho en términos clínicos: el sistema marca como "alto riesgo de agresión" a quienes ya están sobrevigilados y estructuralmente desfavorecidos, con el efecto previsible de reforzar pautas de contención mecánica, aislamiento o medicación prescrita a demanda en estos mismos subgrupos.
No es un defecto técnico. Es un reflejo de que los datos de entrenamiento —anotaciones de agresividad hechas por personal sanitario— están ya impregnados de sesgo cultural y estructural. El paper lo documenta con análisis interseccional de raza × género. La lectura para quien firma la compra del sistema es cruda: un modelo con buen AUC global puede estar cronificando la inequidad del propio servicio.
Lo que esto significa para la práctica
Primera: antes de autorizar un piloto de IA en planta, exigir validación en datos reales del propio centro, con métricas desglosadas por origen étnico, sexo, modo de ingreso y situación residencial. Si el proveedor no puede entregar ese desglose, no hay piloto. Es exactamente lo que el AI Act europeo está empezando a reclamar como parte de la documentación técnica obligatoria en sistemas de alto riesgo sanitario, y lo que el RGPD exige ya vía artículo 22 para decisiones automatizadas que afectan significativamente al paciente.
Segunda: mantener la vigilancia humana como primera línea. Ninguno de estos sistemas está hoy en condiciones de sustituir el control visual ni la clínica. Pueden, en el mejor escenario, funcionar como capa de alerta secundaria. Nada más.
Tercera —y la más incómoda para el clínico: si pedimos al modelo que prediga agresión o autolesión, aceptamos implícitamente que lo que debe predecir es identificable en los datos. Cuando el modelo falla de forma sistemática en los grupos más desfavorecidos, lo que está diciéndonos es que nuestras propias anotaciones clínicas ya estaban sesgadas. Esto no se arregla con más GPUs; se arregla revisando cómo documentamos el riesgo en la historia.
La promesa de la IA en psiquiatría no es falsa. Es, de momento, prematura. Y —esto lo repito desde hace años— cualquier implementación que no incorpore desde el día cero auditoría de equidad y validación local no es innovación: es subcontratación del sesgo.
Lee K, Lee D, Ham HS, Kim HC, Choi HS, Lee Y, Jeong HG. Benchmarking action recognition models for self-harm detection in studio and real-world datasets. Scientific Reports. 2026;16:6850. DOI: 10.1038/s41598-026-36999-w — Licencia CC BY 4.0 ✅ PDF: https://www.nature.com/articles/s41598-026-36999-w
Wang Y, Sikstrom L, Xiao R, et al. Fairness analysis of machine learning predictions of aggression in acute psychiatric care. npj Mental Health Research. 2026;5:16. DOI: 10.1038/s44184-026-00194-6 — Licencia CC BY 4.0 ✅ PDF: https://www.nature.com/articles/s44184-026-00194-6
Nota de prensa CAMH (7 abril 2026): https://www.camh.ca/en/camh-news-and-stories/rsch-study-shows-ai-risk-prediction-tools-in-psychiatry-can-reinforce-systemic-bias Difusión del trabajo coreano (Medical Xpress, 14 abril 2026): https://medicalxpress.com/news/2026-04-ai-early-behavior-psychiatric-wards.html