La inteligencia artificial: ¿la solución para la búsqueda y manejo masivo de información científica?

Noticia | Fecha de publicación: 01/06/2021
Artículo revisado por nuestra redacción

Este contenido es exclusivo para suscriptores.

Crea tu cuenta gratis y léelo completo ahora.

¿Ya estás registrado? Inicia sesión aquí.

Cada día se producen más publicaciones científicas, lo que hace muy difícil, cuando no imposible, que los investigadores puedan estar a la última, sobre todo en el campo de la biomedicina y ciencias de la salud. Esta situación se ha complicado aún más con la irrupción de la pandemia de la COVID-19, en donde, además de incrementarse la generación de documentación científica de manera dramática, se da el caso de que muchas de estas publicaciones son contradictorias entre sí. Es por ello imprescindible desarrollar herramientas que permitan a la comunidad científica acceder de forma más rápida, efectiva y global a fuentes fiables de información. Para ello, un paso necesario es mejorar el trabajo previo de indización de los repositorios de documentación científica para que estos puedan recuperar de manera adecuada la información de interés que se ajuste al tema de búsqueda.

Las vías para intentar conseguir este objetivo son múltiples, pero la práctica totalidad parten del uso de algoritmos de inteligencia artificial, y es precisamente este camino el que está recorriendo el proyecto europeo MESINESP2 (Medical Semantic Indexing in Spanish Shared Task), en el que por España están participando el Instituto de Salud Carlos III (ISCIII), a través de su Biblioteca Nacional de Ciencias de la Salud (BNCS), el Barcelona Supercomputing Center (BSC-CNS) y el Centro Latinoamericano y del Caribe de Información en Ciencias de la Salud (BIREME).

MESINESP2, un proyecto muy peculiar

MESINESP2 es un proyecto incluido en el Plan de impulso de las Tecnologías del lenguaje (Plan TL), en donde se investiga el uso de la inteligencia artificial aplicada a la minería de textos y semántica del lenguaje para facilitar y acelerar la búsqueda y manejo de información científica. Pero este no es un proyecto de investigación al uso. En realidad, es una competición internacional de indexación semántica de literatura científica, ensayos clínicos y patentes, en idioma castellano, en donde participan 35 grupos de investigación de diversos países, siendo España el que más aporta con nueve. El plazo de entrega de resultados comenzó el 7 de mayo y finalizó el 17 de mayo, por lo que en breve se conocerán las propuestas ganadoras.

La propuesta española, que está impulsada, organizada y coordinada por la unidad de Text Mining del BSC-CNS, busca fomentar el desarrollo de sistemas de indexación semántica basada en los últimos avances de inteligencia artificial y procesamiento del lenguaje natural.

La clave, la indización

Realizar búsquedas eficientes en los repositorios de documentación científica requiere de consultas complejas, cuyo éxito depende en parte de la asignación previa, por parte de expertos, de términos específicos para describir su contenido en un proceso conocido como indización. Al contrario de lo que muchos científicos podrían pensar, este proceso tan complejo continúa siendo, a día de hoy, una tarea manual. Por lo tanto, y debido al continuo crecimiento del número de publicaciones, es un procedimiento que corre un serio riesgo de colapso.

La indización de literatura científica es una tarea documental que consiste en asignar a un documento los términos -procedentes de los tesauros- que describen, de forma unívoca, el contenido de un documento. El que una base de datos tenga sus registros indizados es un plus de calidad, ya que permite al usuario realizar búsquedas a través de esos términos que, al ser controlados, evitan problemas propios del lenguaje natural, como las sinonimias y las polisemias.

Por lo tanto, para poder realizar una indización adecuada, es necesario definir de manera correcta los tesauros, listas de palabras o términos controlados de manera jerárquica que se emplean para representar los conceptos incluidos en un texto.

Por ejemplo, en una base de datos con tesauro, para buscar trabajos sobre VIH, bastará con usar el descriptor aceptado para ello para que el sistema devuelva toda la información existente; si la base de datos no cuenta con ese tesauro, el usuario debería buscar por todos los posibles sinónimos: sida, HIV, VIH+, síndrome de inmunodeficiencia adquirida, etc. y, aun así, no existiría la seguridad de haber localizado todos los datos.

En el área de las ciencias de la salud, el tesauro más utilizado en inglés es el MeSH (siglas en inglés de Medical Subjects Headings) elaborado por la NLM (siglas en inglés de National Libtrary of Medicine) de Estados Unidos. En castellano se utiliza el DeCS (Descriptores en Ciencias de la Salud), que es una traducción del MeSH impulsada por la Organización Mundial de la Salud, y que se publica en versión trilingüe (inglés, castellano y portugués).

El objetivo que persigue MESINESP2 es catalizar la búsqueda de información biomédica a través de sistemas de indexación semántica basados en rigor científico y en las tecnologías más avanzadas de inteligencia artificial aplicadas a textos en castellano. Los sistemas que participan en esta iniciativa acelerarán la recuperación de información biomédica y sanitaria, facilitando la localización de textos relevantes en la literatura médica, así como sobre patentes y ensayos clínicos. Los resultados de MESINESP2 también generarán "sistemas de indexación semántica que serán potencialmente útiles para procesar otro tipo de contenido, tales como historia clínica electrónica, guías de práctica clínica o patentes", explicaron a Univadis España Elena Primo y Cristina Bojo, de la BNCS-ISCIII.

La minería de datos y el aprendizaje automático, las herramientas para una correcta indización

MESINESP2 forma parte de una línea de proyectos del Plan TL basados en el desarrollo de tareas colaborativas y competitivas (shared tasks o challenge tasks/tracks, en inglés). Cuando estas tareas están orientadas a participantes académicos, grupos de investigación y entorno empresarial, se articulan a través de campañas de evaluación de sistemas de Procesamiento de lenguaje Natural y minería de textos (proceso que permite buscar, extraer, analizar y derivar nueva información a partir de diversos textos o documentos).

Estas tareas permiten evaluar de forma independiente, con métodos científicos y usando conjuntos de datos bien definidos, la calidad de los resultados obtenidos por los sistemas y algoritmos predictivos que participan en estos análisis. En concreto, MESINESP2 forma parte del proyecto BioASQ de indexación de literatura biomédica.

La tarea de indización es altamente compleja y costosa en tiempo, ya requiere la lectura del documento y seleccionar los términos que mejor describen ese contenido. El principal objetivo de MESINESP2 es construir una herramienta, basada en sistemas de Procesamiento de lenguaje Natural (PLN), una rama de la inteligencia artificial, que ayude y mejore la eficiencia de la indización manual, automatizando parte del proceso.

Estos sistemas de Procesamiento de lenguaje Natural, como muchos de los sistemas basados en la inteligencia artificial, requieren para su desarrollo del aprendizaje automático, esto es, que el algoritmo sea capaz de aprender de manera autónoma a leer cada vez mejor los textos, con la ayuda de un conjunto de fuentes, documentos y referencias, y ser capaz de funcionar de manera más eficiente según pasa el tiempo. En el caso de MESINESP2, esta información la obtienen de las bases de datos IBECS y LILACS, mantenidas por la BNCS-ISCIII y el BIREME, respectivamente. Pero no es suficiente con proporcionarle los textos, para que la máquina pueda aprender a indizar necesita trabajar con textos previamente indizados. Esta guía también proviene de IBECS y LILACS.

El idioma, el talón de Aquiles de MESINESP2

MESINESP2 busca ser capaz de ordenar y clasificar de manera correcta toda la documentación biomédica y del ámbito de la salud en castellano, pero no contempla, de momento, una segunda fase en donde pueda realizar las mismas tareas en inglés. “Esto es una limitación muy fuerte, quizás no tanto en la práctica clínica diaria, donde la gran mayoría de los historiales clínicos que utilizamos están en castellano, pero sí en la labor de investigación que todo médico ha de realizar de manera continua para estar al día y poder intentar dar a sus pacientes los tratamientos más avanzados a sus dolencias. Estas publicaciones científicas suelen estar en inglés, con lo cual MESINESP2 no nos sería útil. Por ello espero que en futuro desarrollen “MESINENG”, que sí nos facilitaría mucho nuestro trabajo y, lo que es más importante, nos posibilitaría dar una mejor atención a nuestros pacientes”, declaró a Univadis España el Dr. Alberto Mussetti, coordinador de la Unidad de terapia Celular del Instituto Catalán de Oncología de Hospitalet del Llobregat.

Comentarios de los usuarios

No hay ningun comentario, se el primero en comentar

Áreas tematicas

Actualidad y Artículos | Psiquiatría general Seguir 144 Favorito

La inteligencia artificial: ¿la solución para la búsqueda y manejo masivo de información científica?

Este contenido es exclusivo para suscriptores.

Comentarios de los usuarios

IMPORTANTE: Debes indicar tu profesión para poder tener acceso a todas las opciones de psiquiatria.com

Recomendamos

Guía del Prescriptor

Próximos cursos

¿Por qué me autosaboteo, si lo que más quiero es adelgazar?

CURSOS PARA PROFESIONALES

TRASTORNOS DESTACADOS

TRASTORNOS MENTALES

¿Eres profesional de la salud mental?

La inteligencia artificial: ¿la solución para la búsqueda y manejo masivo de información científica?

Este contenido es exclusivo para suscriptores.

Comentarios de los usuarios

IMPORTANTE: Debes indicar tu profesión para poder tener acceso a todas las opciones de psiquiatria.com

Recomendamos

Guía del Prescriptor

Próximos cursos

¿Por qué me autosaboteo, si lo que más quiero es adelgazar?