El aprendizaje por refuerzo, la clave para que la inteligencia artificial se parezca más a la humana

Noticia | Fecha de publicación: 23/06/2021
Artículo revisado por nuestra redacción

La búsqueda de una inteligencia artificial comenzó siendo un argumento para la ciencia ficción, como vimos en la obra “2001, una odisea en el espacio”, en la que la supercomputadora HAL 9000 guiaba a un equipo de tres astronautas en un viaje en el que buscaban descubrir los orígenes de la humanidad. El relato que originó la película lo escribi...

Este contenido es exclusivo para suscriptores.

Crea tu cuenta gratis y léelo completo ahora.

¿Ya estás registrado? Inicia sesión aquí.

Regístrate gratis Iniciar sesión

La búsqueda de una inteligencia artificial comenzó siendo un argumento para la ciencia ficción, como vimos en la obra “2001, una odisea en el espacio”, en la que la supercomputadora HAL 9000 guiaba a un equipo de tres astronautas en un viaje en el que buscaban descubrir los orígenes de la humanidad.

El relato que originó la película lo escribió Arthur C. Clarke, y fue publicado bajo el título de "El centinela" en 1951. El argumento original contaba la aventura de una expedición rutinaria al Mare Crisium de la Luna que descubría una estructura translúcida piramidal, inconfundiblemente labrada por una mente inteligente. “El centinela'” no tuvo demasiada repercusión, hasta que cayó en manos de Stanley Kubrick, que propuso a Clark adaptarlo para hacer una película sobre "la relación entre el hombre y el universo". Para componer los rasgos del protagonista invisible de la cinta, el ordenador HAL, se contrató como asesor a un profesor de matemáticas llamado Irving John Good, colaborador de Alan Turing cuando descifró el código criptográfico nazi Enigma. HAL es el cerebro de la nave, y aunque se concibió como una especie de “inteligencia mecánica”, se muestra capaz de tomar decisiones que afectarán decisivamente a la vida de las personas.

Bastantes años después de imaginar así las cosas, los científicos de la computación han diseñado y desarrollado ya numerosos mecanismos y tecnologías para replicar la visión, el lenguaje, el razonamiento o ciertas habilidades asociadas con la vida inteligente. Algunos de estos sistemas son de uso común y apenas nos llama ya la atención. Por ejemplo, Google Photos es capaz de identificar rostros en nuestras fotografías y los clasifica en carpetas con los nombres de cada persona, aunque en las imágenes no siempre se salga igualmente favorecido. Los coches Tesla tienen un sistema de cámaras y sensores que permiten al vehículo saber lo que tiene alrededor (otro coche, un camión, un ciclista, un peatón, un cono de señalización), y adaptar los sistemas de seguridad al entorno.

Todos estos esfuerzos han sido capaces de crear sistemas de inteligencia artificial que pueden resolver de manera correcta problemas específicos en entornos limitados, y algunos de ellos tienen aplicación médica. Los más conocidos son los que se aplican al diagnóstico por imagen, capaces de analizar una retinografía en busca de una lesión diabética o una placa de tórax escrutando una sospecha de neoplasia.

Sin embargo, estamos lejos de poder desarrollar el tipo de inteligencia que se observa en humanos, ni siquiera la que disponen los animales para adaptarse a su entorno.

Se ha publicado un artículo escrito por los científicos del laboratorio de inteligencia artificial DeepMind (una compañía de inteligencia artificial inglesa fundada en 2010 bajo el nombre de DeepMind Technologies, que fue adquirida en 2014 por Alphabet, empresa matriz de Google), en el que exponen que la inteligencia y sus habilidades asociadas surgirán no de la formulación y resolución de problemas complicados que puedan abarcarse mediante algoritmos limitados, sino mediante la aplicación de un principio simple y a la vez poderoso: la utilizando de sistemas de recompensa.

El título del trabajo es “Reward is enough” ("La recompensa es suficiente"), y está inspirado en el estudio de la evolución de la inteligencia natural. Los autores sugieren que la maximización de la recompensa y el modelo de mejora basado en el sistema de ensayo - error podrían ser suficientes para crear comportamientos que, aunque sean artificiales, puedan asimilarse a la mayoría de las habilidades que asociamos con la inteligencia.

Según se expone, el aprendizaje por refuerzo, una rama de la IA que se basa en la maximización de la recompensa, puede conducir al verdadero desarrollo de la inteligencia artificial y a su generalización para nuevas y numerosas aplicaciones.

Cómo evolucionar la IA.

Un método habitual para construir sistemas expertos de IA consiste en intentar replicar elementos del comportamiento inteligente en las computadoras, aprovechando el sistema lógico de los procesadores mediante el manejo de algoritmos (fórmulas matemáticas complejas capaces de albergar numerosas variables a la vez, y que en un número finito de operaciones conducen a un resultado). Por ejemplo, la comprensión analítica del sistema de visión de los mamíferos ha dado lugar a sistemas de inteligencia artificial capaces de categorizar las imágenes, localizar objetos en fotografías o definir los límites entre los objetos, como hace el ya mencionado Google Photos, o emplean las cámaras de los móviles con efecto desenfoque. También se usan en los traductores automáticos que usamos con tanta frecuencia.

Todos estos son casos de inteligencia artificial limitada, diseñada para realizar tareas específicas. Algunos científicos creen que juntando múltiples módulos de IA “parcial” podría conducir a disponer de sistemas inteligentes de nivel superior. Por ejemplo, y en el caso de la labor médica, modelos expertos que combinen capacidades diagnósticas y pronósticas, y al mismo tiempo propongan tratamientos, como si fueran componentes de análisis útil que se puedan apoyar en la estructura actual de la historia clínica.

Sin embargo, los investigadores de DeepMind quieren cambiar el enfoque. “Consideramos una hipótesis alternativa: que el objetivo genérico de maximizar la recompensa sea suficiente para impulsar el funcionamiento que describe la mayoría, si no todas, las habilidades que caracterizan la inteligencia natural y la artificial”, escriben los investigadores.

Básicamente, se basan en cómo funciona la naturaleza. Miles de millones de años de selección natural basada en la variación aleatoria han producido las formas de vida más aptas para sobrevivir y reproducirse. Y detrás de este proceso existe un sistema a gran escala de recompensa.

“El éxito, medido mediante la maximización de la recompensa, exige una variedad de habilidades asociadas a la inteligencia. En tales entornos, cualquier comportamiento que maximice la recompensa hará que afloren esas habilidades".

Pensemos en una ardilla que busca la recompensa de saciar su hambre. Sus habilidades sensoriales y motoras le ayudan a localizar y recolectar frutos secos cuando hay comida disponible. Pero una ardilla que solo pueda encontrar comida está condenada a morir de hambre cuando esa comida escasee. Es por eso que también tiene cierta capacidad de planificación y memoria, lo que le conmina a almacenar las nueces para el invierno. Y también pone en juego ciertas habilidades sociales y conocimientos para asegurarse que otros animales no le roben las nueces. De esta manera, la minimización del hambre puede ser un objetivo secundario al de mantenerse con vida, que requiere adicionalmente habilidades como detectar y esconderse de los animales peligrosos, protegerse de las amenazas ambientales o buscar mejores hábitats.

El aprendizaje por refuerzo comienza a ser una rama especial en el entrenamiento de los algoritmos de IA, que toma en consideración tres elementos clave más allá de las matemáticas: un entorno, los agentes que intervienen en él, y las recompensas. En su artículo, los investigadores de DeepMind sugieren que el aprendizaje por refuerzo es el algoritmo principal que permitiría replicar lo que se ve en la naturaleza, y eventualmente puede conducir a la inteligencia artificial en sentido más general. Pero también reconocen que crear esos mecanismos de aprendizaje mediante la maximización de la recompensa es un problema todavía sin resolver, y que sigue siendo una cuestión central que debe estudiarse mucho más a fondo.

Comentarios de los usuarios

No hay ningun comentario, se el primero en comentar

Áreas tematicas

Actualidad y Artículos | Psiquiatría general Seguir 145 Favorito

El aprendizaje por refuerzo, la clave para que la inteligencia artificial se parezca más a la humana

Este contenido es exclusivo para suscriptores.

Comentarios de los usuarios

IMPORTANTE: Debes indicar tu profesión para poder tener acceso a todas las opciones de psiquiatria.com

Recomendamos

GOLDBERG, STAHL. PSICOFARMACOLOGÍA PRÁCTICA

Próximos cursos

Coaching Psicológico

CURSOS PARA PROFESIONALES

TRASTORNOS DESTACADOS

TRASTORNOS MENTALES

¿Eres profesional de la salud mental?

El aprendizaje por refuerzo, la clave para que la inteligencia artificial se parezca más a la humana

Este contenido es exclusivo para suscriptores.

Comentarios de los usuarios

IMPORTANTE: Debes indicar tu profesión para poder tener acceso a todas las opciones de psiquiatria.com

Recomendamos

GOLDBERG, STAHL. PSICOFARMACOLOGÍA PRÁCTICA

Próximos cursos

Coaching Psicológico