Influencia de la familiaridad con el tema y la especificidad de las preguntas en la invención de citas en la investigación en salud mental mediante el uso de grandes modelos lingüísticos
-
Autor/autores: Linardon J, Jarman HK, McClure Z...(et.al)
Artículo revisado por nuestra redacción
A medida que los modelos de lenguaje de gran escala (LLMs) se integran en la investigación en salud mental, aumenta la preocupación por su tendencia a generar información inventada pero verosímil. Una forma especialmente problemática de estas “alucinaciones” son las citas bibliográficas fabricadas, que no corresponden a ninguna publicació...
Estás viendo una versión reducida de este contenido.
Para consultar la información completa debes registrarte gratuitamente.
Tan sólo te llevará unos segundos.
Y si ya estás registrado inicia sesión pulsando aquí.
A medida que los modelos de lenguaje de gran escala (LLMs) se integran en la investigación en salud mental, aumenta la preocupación por su tendencia a generar información inventada pero verosímil. Una forma especialmente problemática de estas “alucinaciones” son las citas bibliográficas fabricadas, que no corresponden a ninguna publicación real. Aunque estudios previos han evaluado este fenómeno en distintas disciplinas, aún no se conocía si la precisión de las citas generadas por un mismo modelo varía según el tema dentro de un mismo campo.
Este estudio examinó la frecuencia y características de las citas fabricadas y los errores bibliográficos producidos por GPT-4o al generar revisiones de literatura sobre trastornos mentales que difieren en su visibilidad pública y madurez científica. Además, analizó si la especificidad del prompt (general vs. especializado) influía en la precisión de las referencias.
En junio de 2025, el modelo generó seis revisiones (≈2. 000 palabras; ≥20 citas cada una) sobre tres trastornos: depresión mayor (alta familiaridad), trastorno por atracón (moderada) y dismorfia corporal (baja). Para cada trastorno se elaboró una revisión general y otra especializada en intervenciones digitales. Las 176 citas resultantes se verificaron exhaustivamente mediante Google Scholar, Scopus, PubMed, WorldCat y bases editoriales, clasificándolas como fabricadas, reales pero con errores o completamente precisas.
Los resultados fueron contundentes: 19, 9% de las referencias eran fabricadas, y entre las 141 reales casi la mitad (45, 4%) contenían errores, principalmente DOI incorrectos o inválidos. Las tasas de fabricación variaron significativamente según el trastorno, siendo mucho mayores para el trastorno por atracón (28%) y la dismorfia corporal (29%) que para la depresión mayor (6%). Si bien el tipo de revisión no mostró diferencias globales, los análisis estratificados revelaron vulnerabilidades específicas: en el trastorno por atracón, las revisiones especializadas presentaron más del doble de citas inventadas que las generales (46% vs. 17%). La precisión también fluctuó por tema, con la dismorfia corporal mostrando las tasas más bajas.
En conjunto, los hallazgos indican que casi dos tercios de las referencias generadas por GPT-4o fueron fabricadas o inexactas. Además, la fiabilidad del modelo depende del grado de familiaridad pública del trastorno y del nivel de especialización del prompt. Los autores subrayan la necesidad de supervisión humana rigurosa, estrategias de prompting más cuidadosas y políticas editoriales que garanticen la integridad científica en la era de los LLM.
Resumen modificado por Cibermedicina
Para acceder al texto completo consulte las características de suscripción de la fuente original: https://mental.jmir.org/
