Introducción
La inteligencia artificial (IA) se ha consolidado en los últimos años como una de las principales fuerzas transformadoras de la salud digital. En el ámbito de la psiquiatría y la salud mental, los chatbots conversacionales han adquirido una visibilidad creciente como posibles herramientas de apoyo terapéutico, especialmente ante la escasez global de profesionales, el aumento de la demanda asistencial y las barreras de acceso a la atención especializada.
Mientras que los primeros chatbots en salud mental se basaban en reglas fijas o sistemas de recuperación de respuestas, la irrupción de la inteligencia artificial generativa —impulsada por grandes modelos de lenguaje (LLM)— ha abierto un nuevo escenario. Estos sistemas son capaces de generar respuestas originales, adaptadas al contexto emocional y lingüístico del usuario, lo que plantea tanto oportunidades clínicas como riesgos relevantes.
En este contexto, una revisión sistemática y metaanálisis publicada recientemente en el Journal of Medical Internet Research aporta la primera síntesis rigurosa centrada en chatbots de IA generativa aplicados a la salud mental. Sus resultados permiten avanzar desde la especulación tecnológica hacia una evaluación basada en evidencia.
Qué se ha estudiado hasta ahora: alcance y metodología
El estudio analiza 26 investigaciones cuantitativas publicadas entre 2019 y marzo de 2025. De ellas, 14 ensayos clínicos aleatorizados (ECA), con un total de 6.314 participantes, cumplieron criterios estrictos para el metaanálisis. En términos generales, se incluyeron intervenciones que utilizaban chatbots basados en IA generativa o modelos híbridos (combinación de generación y reglas/recuperación) y que medían resultados relacionados con salud mental, principalmente depresión, ansiedad, estrés y afecto negativo.
La mayoría de las intervenciones se desplegaron en plataformas móviles o web. La interacción fue predominantemente textual, aunque algunos sistemas incorporaron voz o imágenes. En cuanto al encuadre terapéutico, aproximadamente un tercio de los estudios citó de forma explícita principios de terapia cognitivo-conductual; otros recurrieron a psicología positiva o mindfulness. Sin embargo, una proporción relevante no especificó un marco clínico claro, un detalle que limita la interpretación de los mecanismos de cambio y dificulta la comparación entre estudios.
Resultados globales: efectos modestos pero significativos
El metaanálisis muestra que, en conjunto, los chatbots de inteligencia artificial generativa se asocian a una reducción pequeña-moderada de los problemas de salud mental, con un tamaño del efecto global de 0,30. Este resultado alcanza significación estadística, pero se acompaña de una heterogeneidad elevada, lo que sugiere que los efectos no son consistentes y pueden variar de forma notable en función de la población, el contexto de uso, el diseño del sistema y las variables evaluadas.
Al desglosar por dominios, la depresión es el único resultado con un efecto estadísticamente significativo de manera consistente (tamaño del efecto cercano a 0,5). Para ansiedad, estrés o afecto negativo, los efectos son más variables y no alcanzan significación global, con intervalos amplios que abarcan desde beneficios clínicamente relevantes hasta ausencia de efecto. En la práctica, estos datos apoyan una conclusión prudente: hay señales de utilidad, pero no evidencia sólida para generalizar la eficacia a cualquier problema o escenario asistencial.
El diseño importa: chatbots sociales frente a chatbots orientados a tareas
Uno de los hallazgos más relevantes es que el tipo de interacción del chatbot actúa como moderador de la eficacia. Los sistemas orientados a la interacción social —diseñados para ofrecer conversación, validación emocional, apoyo percibido y acompañamiento— muestran resultados superiores frente a los chatbots centrados en tareas específicas (por ejemplo, completar ejercicios estructurados o proporcionar información).
Este patrón es coherente con la literatura clásica sobre factores comunes en psicoterapia, donde variables como la alianza terapéutica, la empatía percibida y el sentimiento de ser comprendido se asocian de forma robusta a mejores resultados. Aunque un sistema automatizado no puede replicar el vínculo terapéutico humano, la capacidad de simular una interacción social cálida y personalizada podría favorecer la adherencia y la percepción de ayuda, especialmente en usuarios con malestar emocional leve o moderado.
Desde una perspectiva de implementación, esta observación desplaza el foco: no basta con “tener un chatbot”, sino que el impacto depende de cómo se diseña la experiencia conversacional, qué objetivos clínicos se persiguen y bajo qué condiciones se integra en la atención.
¿Sustitución o complemento?: el papel de la supervisión humana
Un punto clave es que la mayoría de las intervenciones revisadas no se basan en chatbots completamente autónomos. En numerosos estudios existe algún grado de apoyo humano, ya sea para introducir la herramienta, para acompañar su uso o como complemento de una intervención clínica convencional. En otras palabras, el escenario más frecuente no es “chatbot versus terapeuta”, sino “chatbot como apoyo”.
En patologías como la depresión, donde el curso puede ser recurrente y la necesidad de seguimiento es habitual, la evidencia actual sugiere situar estos sistemas como recursos de apoyo para ampliar acceso, reforzar tareas entre sesiones, mejorar adherencia o facilitar autogestión, más que como reemplazo de la relación terapéutica. Este enfoque también es consistente con el hecho de que los tamaños de efecto, aunque prometedores, no son homogéneos y dependen de múltiples variables de diseño y contexto.
Poblaciones y contextos: lagunas relevantes en la evidencia
La revisión identifica desequilibrios importantes en la investigación disponible. Predominan adultos jóvenes y de mediana edad, con escasa representación de adolescentes y personas mayores. Además, la mayoría de estudios se realiza en población no clínica, lo que limita la extrapolación a pacientes con trastornos mentales diagnosticados y a contextos asistenciales complejos.
En términos geográficos, una proporción considerable de trabajos procede de países no occidentales, con una presencia destacada de China, y una representación limitada de Europa. Estas diferencias no son menores: los factores culturales y lingüísticos, así como los marcos regulatorios, pueden influir en el desarrollo, el despliegue y la aceptación de herramientas basadas en IA generativa en salud mental.
Para la práctica clínica, esto obliga a interpretar la evidencia con cautela: un resultado positivo en un entorno y población concreta no garantiza un beneficio equivalente en otros sistemas sanitarios, ni con otros perfiles de pacientes.
Riesgos éticos y necesidad de regulación
Más allá de la eficacia, el estudio subraya riesgos éticos que no pueden ignorarse en el ámbito de la salud mental. Entre ellos destacan la posibilidad de dependencia emocional, la generación de respuestas inapropiadas o dañinas, problemas de privacidad y ausencia de límites claros sobre el alcance de la herramienta. Estos riesgos son especialmente sensibles cuando el usuario se encuentra en situación de vulnerabilidad.
Una integración responsable requiere marcos de gobernanza, auditoría, evaluación clínica y salvaguardas técnicas. También exige transparencia sobre limitaciones, definición clara de qué puede y qué no puede hacer el sistema, y protocolos de derivación cuando se identifique riesgo clínico. El mensaje práctico es claro: la promesa tecnológica no elimina la necesidad de supervisión, evaluación y responsabilidad asistencial.
Conclusiones prácticas para profesionales de salud mental
La evidencia disponible indica que los chatbots de inteligencia artificial generativa en salud mental pueden ofrecer beneficios modestos pero reales, especialmente en depresión. Sin embargo, los resultados son heterogéneos y dependen del diseño, la población y el contexto de uso. Los sistemas orientados a la interacción social parecen asociarse a mejores resultados que los centrados en tareas, lo que refuerza la relevancia del diseño conversacional y de la experiencia del usuario.
En el plano clínico, la interpretación más prudente es considerar estas tecnologías como herramientas complementarias: pueden ampliar acceso, apoyar entre sesiones y mejorar adherencia, pero no sustituyen la evaluación clínica ni la relación terapéutica. En paralelo, su despliegue debe incorporar una reflexión ética