ChatGPT frente a terapeuta humano en TCC: el primer estudio compa

El debate de si ChatGPT puede sustituir al psicoterapeuta no es un debate clínico serio, es un debate de gestión de recursos. Y sin embargo cada pocas semanas aparece en los despachos de dirección de algún servicio como si fuese una pregunta abierta. El piloto de Acevedo y colaboradores, publicado en American Journal of Psychotherapy y reamplificado este mes en el número de abril 2026 de las revistas de la APA, aporta exactamente lo que faltaba: un dato con el que discutir.

Qué hicieron y cómo lo hicieron

El equipo —Sebastian Acevedo y Douglas Opler (Rutgers New Jersey), Esha Aneja (California Northstate), Pamela Valera y Eric Jarmon— diseñó una comparación directa entre un "terapeuta" de IA, ChatGPT-3.5, y un terapeuta humano, ambos realizando TCC por texto. La elección del formato texto es metodológicamente relevante: iguala la modalidad de entrega y neutraliza el argumento habitual de que la IA compite en desventaja porque no puede leer el lenguaje no verbal. Aquí no lo lee ninguno de los dos.

Setenta y cinco profesionales y residentes de salud mental evaluaron transcripciones —a ciegas respecto a qué transcripción procedía de IA y cuál de humano— aplicando criterios cualitativos de calidad en TCC: adherencia a la fijación de agenda, elicitación de feedback del paciente, aplicación concreta de técnicas cognitivas y conductuales, y calidad global de la sesión. El 29% de los evaluadores consideró efectivo al terapeuta humano; menos del 10% consideró efectivo a ChatGPT-3.5. La conclusión del paper es sobria y, me parece, exactamente la adecuada: ChatGPT puede complementar la terapia humana, pero esta implementación concreta carece de la profundidad necesaria para un uso autónomo.

Dónde falla la IA y por qué importa clínicamente

Los autores señalan tres áreas donde el modelo se queda corto, y son exactamente las que cualquiera que haya supervisado residentes en formación en TCC reconoce como las más difíciles de adquirir.

Fijación de agenda. La TCC no es una conversación libre; es una intervención estructurada con una agenda explícita negociada con el paciente al inicio de cada sesión. ChatGPT-3.5, como era previsible, tiende a responder a lo que el usuario trae en el momento, sin sostener ni devolver la estructura. En consulta, esto significa que la sesión se diluye. El paciente sale con la sensación de haber "hablado de cosas", pero sin haber avanzado en la formulación ni en la tarea terapéutica. Un ejemplo concreto: un paciente con trastorno obsesivo que llega trayendo una preocupación aguda por un conflicto laboral. El terapeuta humano reconoce la preocupación, la incluye en la agenda del día junto a la exposición con prevención de respuesta que tenían pautada. ChatGPT se queda en el conflicto laboral durante los cincuenta minutos. Eso, clínicamente, no es TCC; es ventilación emocional.

Elicitación de feedback. La TCC exige que el terapeuta pida activamente al paciente qué le ha resultado útil, qué no, qué se lleva de la sesión. Es lo que permite ajustar la formulación y mantener la alianza. El modelo, por su diseño de refuerzo a la validación, tiende a dar por supuesto que la interacción ha ido bien y no lo chequea. El paciente se marcha sin que se haya consolidado aprendizaje explícito. Y el modelo tampoco corrige su aproximación en la siguiente sesión, porque no tiene siguiente sesión en un sentido clínicamente continuo.

Aplicación técnica de principios de TCC. Identificar pensamientos automáticos, distinguirlos de las creencias intermedias y las nucleares, proponer reestructuración con técnicas específicas —registro de pensamientos disfuncionales, diálogo socrático, experimentos conductuales—. El modelo reconoce el vocabulario y lo utiliza, pero lo aplica de forma genérica y poco personalizada. El paciente recibe "técnicas de TCC" en abstracto; no recibe su TCC, ajustada a su caso.

El otro hallazgo, el que no está en el titular

Hay un dato que no aparece en la nota de prensa de la APA y que merece comentario: los humanos fueron evaluados como efectivos en el 29% de los casos. Es decir, siete de cada diez transcripciones de terapeutas humanos tampoco fueron calificadas como efectivas por pares profesionales. Esto no es un hallazgo menor. Sugiere dos cosas. Primera: la TCC de calidad es difícil, y la varianza entre profesionales —como ya sabíamos por los estudios clásicos sobre "efecto terapeuta"— es enorme. Segunda: comparar el rendimiento promedio de una IA con el promedio humano puede estar ocultando que hay terapeutas humanos con rendimiento peor que la IA, y terapeutas humanos con rendimiento muy superior. El debate relevante no es "IA vs terapeuta", sino cómo ayudamos a los profesionales en el tercio inferior a subir y cómo usamos la IA para tareas donde es claramente útil —psicoeducación estructurada, tareas inter-sesión, monitorización de síntomas— sin confiarle aquello para lo que no está preparada.

Qué hacer con esto en la práctica

Tres consecuencias prácticas inmediatas.

Primero, el estudio usa ChatGPT-3.5, un modelo ya superado por las versiones actuales de GPT-4, Claude Sonnet y Gemini. Replicar este diseño con los modelos de 2026 es urgente. Muy probablemente el rendimiento técnico suba, pero los déficits estructurales —agenda, feedback, personalización— no son un problema de versión del modelo, sino del dispositivo de uso: una conversación aislada sin continuidad, sin formulación acumulativa, sin supervisión clínica externa. Esto no se arregla con más parámetros; se arregla con arquitectura clínica alrededor del modelo.

Segundo, para el paciente que ya usa ChatGPT como "complemento" entre sesiones, el mensaje clínico es matizado: no prohibir, pero sí encuadrar. El modelo puede servir para repasar una técnica discutida en consulta, para redactar un registro de pensamientos, para preparar la agenda de la siguiente sesión. No sirve como espacio terapéutico autónomo. Explicitarlo con el paciente evita la confusión de roles y protege la alianza.

Tercero, para quien gestione un servicio y le hayan propuesto un piloto de "TCC asistida por IA": la pregunta pertinente no es si la IA funciona. La pregunta es qué tarea concreta de la cadena de valor terapéutica se está delegando, con qué supervisión, con qué trazabilidad, y con qué consentimiento informado. Delegar psicoeducación estructurada o recordatorios de tareas es defendible. Delegar la sesión terapéutica no lo es, y este estudio da —por fin— un dato publicado con el que argumentarlo.

La IA no va a sustituir al psicoterapeuta. Pero sí va a obligar al psicoterapeuta a ser mejor psicoterapeuta, porque va a quedar al descubierto —con datos— aquello que la IA imita bien (empatía verbal, formato, lenguaje técnico) y aquello que solo hace el profesional cuando trabaja bien (estructura, personalización, sostén de la alianza en el tiempo). Bienvenida la comparación.

Referencias

Acevedo S, Aneja E, Opler DJ, Valera P, Jarmon E. Evaluating the Efficacy of ChatGPT-3.5 Versus Human-Delivered Text-Based Cognitive-Behavioral Therapy: A Comparative Pilot Study. American Journal of Psychotherapy. 2025. DOI: 10.1176/appi.psychotherapy.20240070
Licencia: acceso restringido vía PsychiatryOnline. Reamplificado en el número de abril 2026 de APA Journals. ⚠️

American Psychiatric Association (nota de prensa). New Research: Human Therapists Surpass ChatGPT in Delivering Cognitive Behavioral Therapy. psychiatry.org/news-room/news-releases/new-research-human-vs-chatgpt-therapists

ABCT — Association for Behavioral and Cognitive Therapies. New Research Critically Evaluates the Existence of ChatGPT Within Cognitive Behavioral Therapy. Febrero 2026. abct.org/featured-articles/new-research-critically-evaluates-existence-chatgpt

Iftikhar Z, et al. ChatGPT as a therapist? New study reveals serious ethical risks. Brown University — ScienceDaily. 2 marzo 2026. sciencedaily.com/releases/2026/03/260302030642.htm
Referencia de contexto: trabajo paralelo de Brown University sobre violaciones éticas en LLMs aplicados a psicoterapia.

Actualidad y Artículos | Inteligencia artificial Seguir 157 Favorito

ChatGPT frente a terapeuta humano en TCC: el primer estudio comparativo a ciegas y por qué conviene leerlo despacio

Este contenido es exclusivo para suscriptores.

Qué hicieron y cómo lo hicieron

Dónde falla la IA y por qué importa clínicamente

El otro hallazgo, el que no está en el titular

Qué hacer con esto en la práctica

Referencias

Comentarios de los usuarios

IMPORTANTE: Debes indicar tu profesión para poder tener acceso a todas las opciones de psiquiatria.com

Próximos cursos

La elaboración de informes periciales en la jurisdicción penal