Introducción al funcionamiento diferencial del ítem.

Introducción al funcionamiento diferencial del ítem.

Autor/autores: Juana Gómez Benito*; María Dolores Hidalgo Montesinos**; Georgina Guilera Ferré***.

,Artículo,Psicología,

Artículo | Fecha de publicación: 29/06/2005
Artículo revisado por nuestra redacción

IntroducciónDesde la aparición de los primeros tests en Estados Unidos para la selección de personal en empresas, la admisión de estudiantes en la universidad, de soldados en el ejército, y en otros muchos sectores públicos y privados, los tests o instrumentos de medida estandarizados se han convertido en una herramienta indispensable en las ciencias sociales y de la salud, tales como la Ps...

Contenido para usuarios registrados

Este contenido es exclusivo para suscriptores.

Crea tu cuenta gratis y léelo completo ahora.

¿Ya estás registrado? Inicia sesión aquí .

Regístrate gratis Iniciar sesión

Introducción

Desde la aparición de los primeros tests en Estados Unidos para la selección de personal en empresas, la admisión de estudiantes en la universidad, de soldados en el ejército, y en otros muchos sectores públicos y privados, los tests o instrumentos de medida estandarizados se han convertido en una herramienta indispensable en las ciencias sociales y de la salud, tales como la Psicología, la Psiquiatría y la Educación. Concretamente, en estos ámbitos, se utilizan una gran variedad de instrumentos de medida para obtener información acerca de rasgos, habilidades, conocimientos, etc. de individuos y grupos.

En este sentido es primordial que los profesionales que emplean tests se cercioren de que éstos funcionan del mismo modo en los distintos grupos existentes en función de variables socio-demográficas como el sexo, la cultura, la etnia, etc., ya que cualquier instrumento de medida tiene que ser objetivo en su medición, es decir, ha de garantizar resultados idénticos en sujetos que tienen el mismo nivel en el atributo medido sea cual sea el grupo de pertenencia. En el caso de que alguno de los ítems que componen el test funcione distintamente a favor (o en contra) de sujetos que tienen habilidad similar, se habla de funcionamiento diferencial del ítem (DIF, Differential Item Functioning), término introducido en 1988 por Holland y Thayer.

Como consecuencia del importante papel que juegan los tests en la toma de decisiones tanto a nivel social y jurídico como psicológico y educativo, los estudios de DIF constituyen uno de los campos de investigación que más interés ha suscitado en el ámbito psicométrico durante las últimas décadas; evidencia de ello es la existencia de gran cantidad de publicaciones que analizan la imparcialidad de los tests con respecto a distintos grupos de sujetos.

Por ello, el objetivo de este trabajo se centra en presentar, a nivel teórico, una breve introducción al concepto de DIF y a los métodos existentes para su detección, aspectos claves a tener en cuenta en la práctica psiquiátrica, psicológica y educativa.

El funcionamiento diferencial del ítem

- Definición del DIF

Un determinado ítem o test presenta DIF si se comporta diferencialmente para individuos o grupos comparables, que difieren en lengua nativa, género, etnia, cultura, o cualquier otra variable que pueda constituir una fuente sistemática de variación ajena al rasgo medido por la prueba en cuestión, entendiendo por comparables aquellos grupos de sujetos que poseen el mismo nivel en la característica o rasgo medido por el test (Gómez e Hidalgo, 1997). En otras palabras, un ítem presenta DIF cuando dos grupos comparables presentan una probabilidad distinta de responder con éxito o en determinada dirección dicho ítem en función del grupo al que pertenezcan; de este modo uno de los grupos presentará una ventaja relativa respecto al otro.

En la terminología propia del DIF, se denomina grupo focal al conjunto de individuos, generalmente minoritario, que representa el foco de interés del estudio y que normalmente es el grupo desaventajado, mientras que el grupo de referencia, generalmente mayoritario, se refiere a un grupo de sujetos estándar respecto al cual se compara el grupo focal. Aunque en la mayoría de los casos se trabaja con un grupo focal y uno de referencia, cabe la posibilidad de contemplar más de un grupo focal, que se comparan con el mismo grupo de referencia.

- DIF, impacto y sesgo

Un aspecto a tener en cuenta en el estudio de la equidad métrica de los instrumentos de medida se refiere a la distinción entre DIF, impacto y sesgo. Hasta el momento ya hemos señalado que un ítem presenta DIF cuando, a iguales niveles del rasgo o habilidad medida, desfavorece a un grupo de sujetos frente a otro.

Sin embargo, hablaremos de impacto en el caso de que las diferencias encontradas entre grupos sean causa de una diferencia real en la variable medida (Ackerman, 1992); en términos de probabilidades, un ítem presenta impacto si la probabilidad de responderlo correctamente es mayor para aquel grupo que realmente es superior en la habilidad medida, mientras que la probabilidad de acertarlo es la misma para todos aquellos individuos con un mismo nivel en el rasgo, independientemente del grupo al cual pertenecen.

Finalmente, a diferencia de los estudios de detección de DIF, los estudios de sesgo dan un paso más adelante; pretenden encontrar una explicación lógica a las causas que subyacen en el modo de funcionar diferencialmente de algunos ítems entre grupos. En el caso de los estudios de DIF se emplean técnicas estadísticas para su detección, pero en los estudios de sesgo son los sociólogos, psicólogos, antropólogos y educadores profesionales los que analizan minuciosamente, en relación al constructo medido por el test, cada uno de los ítems detectados con DIF para poder concluir si presentan o no sesgo.

- Tipos de DIF

Mellenbergh (1982) distingue dos tipos de DIF en función de la existencia o no de interacción entre el nivel en el atributo medido y el grupo de pertenencia de los sujetos. En el denominado uniforme no existe interacción entre el nivel en el rasgo medido y la pertenencia a un determinado grupo, es decir que la probabilidad de responder correctamente al ítem en cuestión es mayor para un grupo que para el otro de forma uniforme a lo largo de todos los niveles del rasgo. En el caso del DIF no uniforme sí que existe dicha interacción, por lo que la probabilidad de cada grupo de responder correctamente al ítem no es la misma a lo largo de los distintos niveles del rasgo medido.

Desde la teoría de respuesta al ítem se propone el concepto de curva característica del ítem (CCI), de gran utilidad para entender gráficamente los distintos tipos de DIF. La CCI relaciona la probabilidad de acertar el ítem con el nivel de los sujetos en la variable medida. De este modo, un ítem no presenta DIF si su curva característica para el grupo focal y para el grupo de referencia coinciden, muestra DIF uniforme si las respectivas CCIs no se cruzan en ninguno de los niveles en la variable medida, y presenta DIF no uniforme si en algún punto éstas sí que se cruzan. A continuación se presentan tres ejemplos gráficos (Gráfico 1, Gráfico 2 y Gráfico 3) que esperamos faciliten la comprensión del concepto y tipología del DIF:

Métodos de detección del DIF

Dada la importancia de la detección del DIF para asegurar la equidad métrica de los instrumentos de medida, existen en la actualidad una extensa variedad de técnicas de análisis para detectar el DIF.

En este apartado presentamos una aproximación a dichos procedimientos sin entrar en la explicación detallada de cada uno de ellos, ya que no es el objetivo central del presente artículo. Aquel lector interesado en profundizar en los procedimientos aquí nombrados puede consultar las revisiones de Gómez e Hidalgo (1997), Hidalgo y Gómez (1999) e Hidalgo y López-Pina (2000) en castellano, y Millsap y Everson (1993) y Potenza y Dorans (1995) en inglés.

- Métodos incondicionales vs condicionales

Los métodos incondicionales de detección del DIF se basan en las diferencias en la dificultad del ítem y se caracterizan por igualar a los sujetos respecto al nivel en la habilidad o rasgo medido, de ahí que los grupos no pueden considerarse comparables y, por tanto, son procedimientos ya descartados. Las técnicas más destacadas son el análisis de la varianza (ANOVA), el análisis delta-plot y la correlación biserial-puntual, métodos actualmente poco utilizados para la detección del DIF ya que presentan una tasa de detecciones correctas muy baja y ocasionan una elevada tasa de falsos positivos (ítems que, sin presentar DIF, son detectados con DIF). Los métodos condicionales, a diferencia de los incondicionales, permiten trabajar con grupos comparables porque igualan los grupos respecto al rasgo medido.

- Métodos de invarianza condicional observada vs no observada

Las técnicas condicionales pueden igualar los grupos tomando en consideración diferentes aspectos, que definen los dos tipos de procedimientos: métodos de invarianza condicional observada y de invarianza condicional no observada (Millsap y Everson, 1993). Los primeros utilizan como criterio de comparabilidad entre los grupos una variable observada, normalmente la puntuación total de los sujetos en el test, sin especificar ningún modelo de medida; cabe citar la prueba c2, los modelos loglineales y logit, el estadístico Mantel-Haenszel y la regresión logística, entre otros. Sin embargo, en el segundo conjunto de procedimientos la variable de igualación es una variable latente; se formula un modelo basado en la teoría de respuesta al ítem o en el análisis factorial confirmatorio, y se comprueba si los parámetros estimados en dicho modelo se mantienen invariantes para los distintos grupos.

- Métodos para ítems dicotómicos vs politómicos

Las pruebas citadas hasta el momento son aplicables a ítems de respuesta dicotómica, es decir, aquellos ítems que solamente permiten dos categorías de respuesta (p. ej: Sí/No y Acierto/Error), pero en muchas ocasiones, y actualmente ésta es la tendencia, los tests presentan un formato de respuesta con más de dos categorías (p. ej: escalas tipo Likert) denominados ítems politómicos. En este último caso, han surgido diversas técnicas de detección del DIF, generalmente adaptando los procedimientos utilizados en ítems dicotómicos y proponiendo extensiones para ítems de respuesta politómica. Entre ellos, podemos destacar los métodos basados en la teoría de respuesta al ítem, las generalizaciones del estadístico Mantel-Haenszel, las extensiones de la regresión logística, etc.

- Métodos de purificación

Un problema de igualar los grupos utilizando como criterio de comparación la variable que mide el test, ya sea observada o latente, hace referencia a que dicho criterio de igualación está contaminado por la presencia de los ítems que muestran DIF y que forman parte del criterio junto a los ítems sin DIF. En este sentido, para reducir el efecto producido por los ítems con DIF, se han propuesto algunas técnicas de purificación que iterativamente eliminan del criterio aquellos ítems que en etapas previas presentan DIF. Por ejemplo, Holland y Thayer (1988) emplean el método de purificación bietápica para el estadístico Mantel-Haenszel, Gómez y Navas (1996) aplican la purificación paso a paso a la regresión logística dicotómica, y Hidalgo y Gómez (2003) a la regresión logística politómica, entre otros.

Discusión

A lo largo de estas líneas hemos pretendido concienciar a los profesionales de las ciencias sociales y de la salud de la importancia de la detección de ítems que funcionan diferencialmente para diversos grupos, y así asegurarse de que los instrumentos de medida utilizados no están aventajando o desfavoreciendo a alguno de los grupos sometidos a estudio. Como amenaza que supone el DIF para la validez de los instrumentos de medida, los estudios de su detección deberían suponer una fase añadida tanto al proceso de evaluación de los instrumentos de medida ya estandarizados como al desarrollo de nuevos tests, recomendación señalada en los últimos Standards for Educational and Psychological Testing (APA, AERA, NCME, 1999).

En línea con esta concienciación progresiva, hemos presentado en este trabajo una introducción al concepto de DIF y sus distintos tipos, y una breve caracterización de las principales aportaciones metodológicas para la detección del DIF. Esperamos que ello favorezca y facilite el interés por una mayor profundización en el tema y una utilización óptima de los instrumentos de recogida de datos en el campo de las ciencias sociales y de la salud.

Referencias

- Ackerman, T. (1992). A didactic explanation of item bias, item impact, and item validity from a multidimensional perspective. Journal of Educational Measurement, 29(1), 67-91.

- American Psychological Association, American Educational Research Association y National Council on Measurement in Education (1999). Standards for educational and psychological testing. Washington, DC: American Psychological Association.

- Gómez Benito, J. y Hidalgo Montesinos, M.D. (1997). Evaluación del funcionamiento diferencial en ítems dicotómicos: Una revisión metodológica. Anuario de Psicología, 74(3), 3-32.

- Gómez Benito, J. y Navas Ara, M.J. (1996). Detección del funcionamiento diferencial del ítem: Purificación paso a paso de la habilidad. Psicológica, 17, 397-411.

- Hidalgo Montesinos, M.D. y Gómez Benito, J. (1999). Técnicas de detección del funcionamiento diferencial en ítems politómicos. Metodología de las Ciencias del Comportamiento, 1(1), 39-60.

- Hidalgo Montesinos, M.D. y Gómez Benito, J. (2003). Test purification and the evaluation of differential item functioning with multinomial logistic regression. European Journal of Psychological Assessment, 19(1), 1-11.

- Hidalgo Montesinos, M.D. y López-Pina, J.A. (2001). Funcionamiento diferencial de los ítems: Presente y prespectivas de futuro. Metodología de las Ciencias del Comportamiento, 2(2), 167-182.

- Holland, P. y Thayer, D. (1988). Differential item performance and the Mantel-Haenszel procedure. En H. Wainer y H.I. Braun (Eds.), Test Validity (pp.129-145). Hillsdale, NJ: LEA.

- Mellenbergh, G. (1982). Contingency table models for assesing item bias. Journal of Educational Statistics, 7, 105-118.

- Millsap, R. y Everson, H. (1993). Methodology review: Statistical approaches for assessing measurement bias. Applied Psychological Measurement, 17, 297-334.

- Potenza, M. y Dorans, N. (1995). DIF assessment for politomously scored items: A framework for classification and evaluation. Applied Psychological Measurement, 19, 23-37.

Comentarios de los usuarios

No hay ningun comentario, se el primero en comentar

9864

Actualidad y Artículos | Psicología general Seguir 118 Favorito