El servicio de Anestesiología del Hospital Universitario de Valme de Sevilla ha desarrollado un estudio vinculado a un tema tan actual como es la Inteligencia Artificial (IA), cuyo interés le ha reportado el premio a la Mejor Comunicación en formato Póster presentada en el congreso andaluz y extremeño de esta especialidad médica.
Bajo el título 'Inteligencia Artificial Generativa como herramienta en situaciones clínicas de Anestesiología', han materializado un estudio observacional descriptivo con el objetivo de comprobar el grado de exactitud de una herramienta de inteligencia artificial generativa (ChatGPT versión 3.5) en Anestesiología, según explica el centro hospitalario en una nota de prensa.
Para ello, lo comparan con los conocimientos de dos anestesiólogos con experiencia reconocidos por el Edaic (Diploma Europeo en Anestesiología y Cuidados Intensivos).
La jefa del servicio de Anestesiología de este hospital sevillano, Mercedes Echevarría, subraya cómo la IA está revolucionando múltiples ámbitos de las ciencias y "la práctica clínica no es una excepción".
De ahí que sea un estudio de "máximo interés" en el ámbito médico al aportar una visión actual sobre la utilidad de la herramienta en esta especialidad.
En él han intervenido cinco profesionales: la jefa del servicio junto a los especialistas Álvaro San Antonio y María Ruano más los residentes Carlos del Boz y Belén Estero.
METODOLOGÍA DEL ESTUDIO
La Inteligencia Artificial generativa engloba modelos capaces de generar contenido nuevo de texto coherente y contextualmente relevante en base a la información que ha sido entrenada previamente, procedente de una amplia base de datos. Por su parte, la metodología de este estudio se basa en lanzar preguntas aleatorias a la herramienta, elaboradas por residentes en temprana formación.
La muestra preliminar fueron 96 ejecuciones, sin que se hayan utilizado datos sanitarios de pacientes para el estudio. Dado que los algoritmos de IA generativa no tienen un comportamiento determinístico, se realizaron un conjunto de dos pruebas con el objetivo de compensar las posibles divergencias entre las respuestas.
Las respuestas de la herramienta se entregaron a los dos expertos, que valoraron: grado de exactitud 1-4 (completa, válida pero falta algún dato, respuesta generalista faltando datos importantes y respuesta incorrecta) tratándola como variable cuantitativa; grado de satisfacción (0-100) variable cuantitativa discreta y recomendación de la herramienta (si/no) como variable cualitativa nominal.
Se realizó un promedio entre las respuestas de los dos expertos. Se agruparon las preguntas en cuatro categorías: fórmulas matemáticas, farmacología, práctica clínica y algoritmos preestablecidos.
Las medidas de resultado fueron: la frecuencias N (%) del grado de exactitud, la satisfacción de las respuestas de forma global (%); la frecuencia N (%) de recomendación de uso. Promedio de la exactitud por categorías de respuesta y la frecuencia N(%) de recomendación de uso por categorías.
El grado de exactitud en la respuesta fue de 2 'respuesta válida pero faltando algún dato en un 43 (45%) de las ejecuciones, seguido de 'respuesta completa 31 (32%). La satisfacción global fue de 72/100 y los expertos recomendarían el uso de la herramienta en 66 (68%) de las ejecuciones. Al agrupar las ejecuciones en categorías con similar dificultad, la mayor exactitud fue para la categoría de 'algoritmos preestablecidos, seguido de 'práctica clínica', 'farmacología' y por último 'fórmula matemática'.
Asimismo, advierten que estas herramientas cuentan con un sesgo de información producido al contar con una base de datos limitada en tiempo, así como 'alucinaciones', terminología que se corresponde con respuestas que carecen de una base sólida, generando información imprecisa y falsa. De ahí que concluyan que "la revisión humana es necesaria para mitigar estos errores y garantizar la utilidad y la precisión de la información generada por estos modelos".
Con más precisión, los expertos que han participado en este estudio recomiendan "su uso en la categoría de algoritmos preestablecidos a modo de protocolización de actuaciones siendo menos útil en la categoría de práctica clínica (63% y 37%)".