Gracias a los recientes avances en inteligencia artificial, los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) han surgido como herramientas poderosas para diversas tareas relacionadas con el procesamiento del lenguaje natural.
Estos modelos, como el transformador generativo preentrenado 4 (GPT-4) de OpenAI, han demostrado capacidades notables en áreas com...
Gracias a los recientes avances en inteligencia artificial, los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) han surgido como herramientas poderosas para diversas tareas relacionadas con el procesamiento del lenguaje natural.
Estos modelos, como el transformador generativo preentrenado 4 (GPT-4) de OpenAI, han demostrado capacidades notables en áreas como el análisis de sentimientos, la generación de texto y el resumen de interacciones entre proveedores y pacientes. Sin embargo, la investigación sobre la aplicación de estos modelos en la predicción de crisis de salud mental, especialmente en contextos de telesalud, sigue siendo limitada.
Objetivo
Este estudio tuvo como objetivo evaluar la capacidad de GPT-4 para predecir episodios de crisis de salud mental, comparando su rendimiento con el de médicos clínicos experimentados. Específicamente, se analizó la capacidad del modelo para identificar la ideación suicida (IS) y la probabilidad de que los pacientes desarrollen un plan suicida, utilizando información proporcionada por los pacientes durante su admisión en una plataforma nacional de telesalud mental.
Métodos
Se utilizaron datos anónimos de la plataforma de telesalud Brightside, que incluyeron la queja principal autoinformada y el historial de intentos de suicidio de 140 pacientes que indicaron ideación suicida (IS) en el momento de la admisión, y 120 pacientes que desarrollaron un plan suicida durante el tratamiento.
También se incluyeron datos de 200 pacientes seleccionados al azar que nunca respaldaron la IS. Se presentaron estos datos a seis médicos clínicos de Brightside (3 psicólogos y 3 psiquiatras) y a GPT-4, quienes realizaron predicciones sobre la aparición de IS con un plan, utilizando solo la información proporcionada durante la admisión.
Resultados
La precisión media de los médicos fue superior a la de GPT-4 en la identificación de IS con plan en el momento de la admisión (0, 7 frente a 0, 6). Sin embargo, GPT-4 mostró una mayor sensibilidad (0, 62) en comparación con los médicos (0, 53).
Al agregar el historial de intentos de suicidio, la precisión de los médicos mejoró a 0, 77, mientras que la de GPT-4 disminuyó a 0, 54, aunque la sensibilidad del modelo aumentó a 0, 59.
Cuando se trató de predecir IS futura con un plan, tanto los médicos como GPT-4 mostraron un rendimiento inferior, con sensibilidades medias de 0, 4 y 0, 46 para los médicos, y 0, 46 y 0, 74 para GPT-4, respectivamente.
Conclusiones
El estudio mostró que GPT-4, a pesar de su diseño sencillo, alcanzó un rendimiento en algunas métricas cercano al de los médicos clínicos capacitados, lo que sugiere su potencial para complementar la identificación de pacientes en riesgo.
Sin embargo, se necesita más investigación antes de implementar estos modelos en entornos clínicos. Es esencial que el modelo se someta a rigurosos controles de seguridad para mitigar posibles sesgos inherentes a los datos con los que fue entrenado.
A pesar de estas limitaciones, los LLM, como GPT-4, ofrecen una prometedora herramienta para mejorar la detección temprana de crisis de salud mental, lo que podría llevar a una intervención más oportuna y, en última instancia, a mejores resultados para los pacientes.
Para acceder al texto completo consulte las características de suscripción de la fuente original:https://mental. jmir. org/