Cuando alguien me enseña una herramienta de inteligencia artificial, casi siempre empieza por el número. "Acierta el 87%." "Sensibilidad del 90%." Durante un tiempo, ese número me impresionaba. Ya no. He aprendido a hacer una pregunta distinta, y esta semana tres trabajos —ninguno sobre chatbots— me han recordado por qué. Los pongo juntos porque cuentan la m...
Cuando alguien me enseña una herramienta de inteligencia artificial, casi siempre empieza por el número. "Acierta el 87%." "Sensibilidad del 90%." Durante un tiempo, ese número me impresionaba. Ya no. He aprendido a hacer una pregunta distinta, y esta semana tres trabajos —ninguno sobre chatbots— me han recordado por qué. Los pongo juntos porque cuentan la misma historia desde tres sitios diferentes.
El primero es un estudio de fenotipado digital del insomnio. Pusieron una pulsera tipo Fitbit a 338 personas durante cuatro semanas y entrenaron un modelo de aprendizaje automático para clasificar el insomnio. El resultado es muy bueno: un F1 de 0,87. Si me quedo en el titular, salgo corriendo a recomendarlo. Pero lo valioso del trabajo no es el acierto, es la honestidad de los autores. Al abrir el modelo y mirar qué variables pesaban más en la predicción, varias de ellas contradecían lo que cualquier clínico esperaría. El modelo acertaba, sí, pero por motivos que no encajan con lo que sabemos del insomnio. Y ahí está la trampa: un modelo puede dar en la diana apoyándose en una correlación casual de su base de datos, que se desmorona en cuanto cambias de población. Acierta hoy, aquí, con estos. Mañana, con tus pacientes, nadie lo garantiza.
El segundo es una revisión amplia, de noventa estudios, sobre el seguimiento ocular —el eye-tracking— para cribar autismo de forma precoz. La promesa es preciosa: detectar señales tempranas con la cámara de un dispositivo, en casa, sin esperas. Y en el laboratorio funciona; discrimina bien. El problema aparece cuando bajas a la realidad. Los propios autores reconocen que la validación externa se reporta de forma inconsistente y que las barreras prácticas son enormes: la luz cambiante de un salón, la distancia a la que el niño mira la pantalla, el cuidador sosteniendo el móvil con pulso variable, mil modelos de dispositivo distintos. Una cosa es la sala controlada del estudio y otra el comedor de una casa un martes por la tarde. Entre las dos hay un abismo que el número del laboratorio no captura.
El tercero cierra el círculo. Un modelo que usa los metabolitos producidos por las bacterias del intestino para distinguir autismo de controles, con un Random Forest que alcanza un 85% de acierto. Suena a futuro. Pero hay que leer la letra pequeña: es un piloto construido a partir de dos bases de datos teóricas, no con pacientes propios. El modelo no ha tocado a un niño real; ha trabajado sobre la producción teórica de metabolitos calculada a partir de bases de datos globales. Es un primer paso interesante, y apunta a algo que ya sospechábamos sobre el eje intestino-cerebro. Pero está a años luz de ser una prueba diagnóstica.
¿Y qué tienen en común estos tres? Que el número, por sí solo, no dice si la herramienta sirve. El primero acierta con variables que no tienen sentido clínico. El segundo acierta en un sitio donde nadie va a usarlo. El tercero acierta sin haber visto la enfermedad de verdad. En los tres, el porcentaje es alto y la utilidad clínica, hoy, es baja. Y no lo digo para despreciar la investigación —es buena y necesaria—, sino para protegernos de quien nos venda el porcentaje como si fuera la conclusión.
Esto, además, tiene una traducción directa en la consulta, sobre todo cuando una familia llega con un recorte o con una web que promete detectar el autismo desde el móvil o curarlo con la dieta. Mi trabajo no es desilusionarlos, pero tampoco alimentar una falsa esperanza. Hay señal de investigación, sí. Pruebas para diagnosticar o tratar, todavía no.
Qué hago mañana:
Primero, cuando me presenten una herramienta de IA, no me quedo en el porcentaje de acierto. Pregunto qué variables usa para acertar y si esas variables tienen sentido clínico. Si nadie sabe responder, el número no me vale.
Segundo, pregunto siempre dónde se validó y en quién. No es lo mismo un laboratorio que el salón de una casa, ni una cohorte ajena que mi población real. "Funciona" no significa nada hasta que sé dónde funciona.
Tercero, cuando una familia me traiga la última promesa —el cribado por la cámara, la dieta del microbioma—, les doy el mensaje honesto en una frase: hay líneas de investigación prometedoras, pero hoy no se diagnostica ni se trata así. Ni más, ni menos.
Referencias
Kim M, Yun S, Kim H, et al. Heart rate circadian phase and hyperarousal as wearable digital phenotyping of insomnia: an interpretable machine learning study. Digital Health (SAGE). 2026. https://doi.org/10.1177/20552076261458929
Eapen V, et al. Home-based eye tracking for early autism screening: a scoping review of approaches, evidence, and implementation challenges. BMC Psychiatry. 2026. https://doi.org/10.1186/s12888-026-08255-y
Emberti Gialloreti L, et al. Machine learning model to identify gut microbiome-derived metabolites as potential biomarkers of autism spectrum disorder: a pilot study. BMC Psychiatry. 2026. https://doi.org/10.1186/s12888-026-08178-8