Este artículo explora cómo los grandes modelos de lenguaje (LLM) y los chatbots están transformando la investigación y práctica quirúrgica. Comienza con un repaso histórico al primer chatbot, ELIZA, desarrollado por Joseph Weizenbaum en 1966, que muestra interacciones lingüísticas básicas. Décadas después, los avances en inteligencia artificial, especialmente con arquitecturas de transformadores como las usadas en modelos contemporáneos como GPT-4, han permitido crear herramientas mucho más avanzadas.
Estos LLM son capaces de generar texto con alta relevancia clínica y lingüística, al punto de superar la prueba de Turing en contextos médicos. En cirugía, su uso abarca desde la extracción de factores de riesgo y pronósticos hasta el apoyo en la toma de decisiones y la educación mediante simulaciones.
Sin embargo, los LLM presentan limitaciones importantes. Uno de los problemas más destacados son las "alucinaciones", es decir, la generación de información incorrecta que parece plausible. Esto se compara con los falsos recuerdos que pueden crear la mente humana. Para mitigar este problema, los modelos deben ser entrenados con datos de alta calidad, complementados con técnicas de verificación externa y ajustes en sus respuestas.
Además, la falta de transparencia en los modelos comerciales, como GPT-4, dificulta la evaluación científica, ya que no comparten detalles sobre los datos de entrenamiento o su arquitectura.
Otro desafío significativo es el alto costo computacional necesario para entrenar estos modelos, lo cual limita su desarrollo a instituciones con recursos tecnológicos avanzados. La seguridad y la privacidad también son preocupaciones clave, ya que los datos confidenciales utilizados para entrenar los modelos podrían verse comprometidos.
La calidad y diversidad de los datos utilizados para entrenar los LLM son fundamentales para que puedan aplicarse en diferentes contextos de salud. En este sentido, se recomienda usar curvas de aprendizaje para identificar el punto en el que agregar más datos deja de mejorar el modelo. Además, es crucial que los datos representen a poblaciones diversas para evitar sesgos que puedan perpetuar desigualdades en salud.
Un enfoque prometedor es el aprendizaje federado, que permite entrenar modelos en múltiples instituciones sin compartir datos sensibles, preservando la privacidad y mejorando la generalización de los resultados.
El artículo también subraya la importancia de optimizar los recursos computacionales. Mientras que entrenar un modelo desde cero requiere una inversión masiva, el ajuste fino de modelos preentrenados o el uso de aprendizaje en contexto son opciones más accesibles. Para aprovechar al máximo estas herramientas, se necesita una adecuada ingeniería de indicaciones, que consista en formular preguntas claras, proporcionar contexto y establecer restricciones específicas para guiar las respuestas.
Un tema crítico abordado es la equidad en salud. Los LLM podrían agravar las disparidades si se entrenan con datos sesgados o si funcionan mejor en entornos digitalizados, dejando atrás a comunidades con recursos limitados. Sin embargo, si están bien diseñados, tienen el potencial de reducir estas desigualdades al aclarar las decisiones clínicas en criterios objetivos, mitigando los sesgos inherentes al razonamiento humano. Esto es especialmente relevante en situaciones quirúrgicas complejas o con tiempo limitado.
El futuro de los LLM en la cirugía es prometedor, pero su implementación debe ser cuidadosa. Es esencial realizar pruebas exhaustivas en entornos clínicos reales, desarrollar ensayos digitales para generar evidencia sólida y fomentar la transparencia mediante modelos de código abierto. Con un enfoque ético y colaborativo, estas herramientas tienen el potencial de revolucionar la atención quirúrgica, mejorando no solo la precisión y eficiencia, sino también la equidad en el acceso.