Definición:
Técnica estadística que evalúa qué tan bien un modelo generaliza a datos no vistos, dividiendo el dataset en múltiples subconjuntos para entrenamiento y prueba iterativa.
Ejemplo clínico. Modelo de predicción de respuesta a antidepresivos se entrena con 80 % de pacientes y se prueba con 20 % restante, repitiendo 5 veces con diferentes divisiones. Precisión consistente del 75 % indica buena generalización.
Precaución. No garantiza funcionamiento en poblaciones muy diferentes al dataset original.
Relevancia para la práctica. Indicador clave de si una herramienta funcionará en tu población específica.