Lunes por la mañana. Consulta de las nueve y media. María, 34 años, episodio depresivo moderado, en lista de espera de psicología desde hace dos meses. Antes de irse me pregunta: «Doctor, una amiga me ha dicho que está usando Wysa y le va bien. ¿Le parece bien si la pruebo mientras me llaman?». Hasta hace muy poco yo respondía por intuic...
Lunes por la mañana. Consulta de las nueve y media. María, 34 años, episodio depresivo moderado, en lista de espera de psicología desde hace dos meses. Antes de irse me pregunta: «Doctor, una amiga me ha dicho que está usando Wysa y le va bien. ¿Le parece bien si la pruebo mientras me llaman?». Hasta hace muy poco yo respondía por intuición. Esta semana, por fin, puedo responderle con datos. Dos publicaciones aterrizan al mismo tiempo y, leídas juntas, dibujan un mapa razonable de qué decirle a María, y qué no.
Lo que dice el primer metaanálisis decente sobre chatbots de TCC
El grupo de Bohan Gong en Tsinghua acaba de publicar en JMIR la primera revisión sistemática con metaanálisis sobre chatbots basados en terapia cognitivo-conductual para depresión y ansiedad. Veintinueve ensayos clínicos aleatorizados, nueve bases de datos rastreadas, calidad evaluada con GRADE. Los números son los siguientes. A corto plazo, justo al terminar la intervención, los chatbots producen una reducción moderada de síntomas depresivos (g de Hedges = -0,55; IC95% -0,70 a -0,40). Para ansiedad el efecto es más modesto: g = -0,26. A medio plazo —y aquí viene lo que importa— el efecto de depresión cae a pequeño (g = -0,32) y el de ansiedad deja de ser estadísticamente significativo.
Dos detalles que conviene retener.
Primero: el subgrupo que más se beneficia es el que mezcla síntomas de depresión y ansiedad comórbidos, no los cuadros depresivos puros ni los ansiosos puros.
Segundo: la mayoría de chatbots incluidos en el metaanálisis no son LLM adaptativos tipo ChatGPT, sino chatbots de reglas rígidas con árboles de decisión cerrados. Tipo Wysa, Woebot, SilverCloud. Lo que veamos con LLM conversacionales será otra historia, y aún no la tenemos.
La calidad GRADE de la evidencia es de muy baja a baja, con heterogeneidad alta. Traduzco: no estamos ante una verdad consolidada, sino ante una primera señal coherente.Lo que yo le digo a María: «Sí, puede ayudarte algo, sobre todo porque tienes ansiedad mezclada con la depresión. Pero no esperes milagros, y sobre todo no te pienses que después de tres meses la cosa va a seguir mejorando sola. Es un puente, no la otra orilla».
Y luego está la cuestión de qué app usar
Aquí entra el segundo trabajo de la semana, firmado por el grupo de la Universidad de Ulster con datos de ORCHA, el organismo certificador del NHS británico. 436 apps de salud mental evaluadas con clustering y reglas de asociación. Los hallazgos son incómodos.Solo el 55,3 % de las apps tuvo un profesional sanitario en su desarrollo. El 44,7 % restante, no. Solo el 57,6 %incluyó alguna referencia o validación con fuentes fiables.
La "evidencia" más frecuente que aportan los desarrolladores es —textual— «los usuarios dicen que les gusta». Marketing disfrazado de evidencia clínica.Y un detalle que me parece especialmente importante: las apps que más datos recopilan (correo, IP, nombre, patrones de uso) tienden a puntuar mejor en calidad. El rigor a menudo viene con peaje de privacidad. Conviene saberlo antes de recomendar nada.
Qué te llevas para la consulta
Tres cosas concretas, todas implementables sin coste y sin formación adicional.
Primera: cuando un paciente te diga que está usando o quiere usar una app, pídele que abra la ficha del producto delante de ti. Treinta segundos. Mira si figura un clínico responsable y qué evidencia se cita. Si solo aparece «valoraciones de usuarios», estás ante publicidad. La mitad del mercado lo es.
Segunda: filtra por gravedad antes de recomendar. La evidencia agregada del metaanálisis sostiene la indicación para depresión leve a moderada con ansiedad comórbida en lista de espera. No la sostiene para depresión grave, ideación suicida activa, TEPT ni psicosis.
En esos cuadros, la app no es un puente: es una distracción y, en el peor caso, un obstáculo para que el paciente busque ayuda real.
Tercera: pacta una fecha de revisión. Si tu paciente lleva más de tres meses con la app y dice que «le sigue ayudando igual», desconfía. La evidencia dice que el efecto se atenúa con el tiempo. Conviene preguntarse si lo que sostiene la mejoría es el chatbot, o el hecho de saberse acompañado mientras espera. No es lo mismo, y a medio plazo importa.
Las tres preguntas que yo le hago a cualquier app antes de mencionarla en consulta
¿Quién la ha diseñado? Si no figura un clínico, sospechoso.
¿Qué evidencia publicada tiene? Si solo aporta testimonios, no es evidencia.
¿Qué datos recopila y dónde se almacenan? Conviene saberlo antes de derivar.
Las apps no curan la depresión. Tampoco la libreta donde apuntan los pacientes su día. Pero ayudan a sostener el tránsito hasta que llega el clínico. Si las usas como puente, son útiles. Si las usas como sustituto, te quedas a medio río.
Referencias
- Gong B, Yao N, Xie H, et al. Efficacy, User Engagement, and Acceptability of Cognitive Behavioral Therapy-Oriented Psychological Chatbots for Adults With Depressive and/or Anxiety Symptoms: Systematic Review and Meta-Analysis of Randomized Controlled Trials. Journal of Medical Internet Research. 2026. DOI: 10.2196/82677Z
ych MM, Bond R, Mulvenna M, et al. The Quality and Characteristics of Digital Mental Health Apps: Mixed Methods Study. JMIR Human Factors. 2026. DOI: 10.2196/67944