Introducción
Una revisión de los más recientes estudios en Psicología Educativa muestra una tendencia cada vez mayor a valorar la importancia de los resultados estadísticos y su interpretación, más allá de su nivel de significación para pruebas aisladas. Entre los principales estadísticos que se utilizan con este fin se encuentran los conocidos como <B><I>medidas o índices de varianza explicada</I></B>, a partir de los cuales se obtiene cierta información complementaria respecto a la ofrecida por pruebas tales como <I>diferencia de medias, análisis de varianza o regresión...</I>, habiéndose llegado a estimar conveniente el aconsejar que los investigadores tengan en cuenta la inclusión de esta información al disponerse a evaluar la importancia de los resultados.
No obstante, O'Grady (1982) destaca algunas orientaciones y limitaciones a considerar a la hora de evaluar la importancia de un estudio, como son el diferenciar si el objetivo que se pretende es lograr una buena predicción para una variable, a partir de una o más variables explicativas, o bien mostrar una buena explicación de los datos, aunque ésta sea la carencia de importancia de una variable.
Respecto a las limitaciones hay que tener en cuenta que la obtención de un bajo porcentaje de varianza explicada puede deberse a causas tan diversas como deficiencias en la medición, un diseño inadecuado, heterogeneidad de la muestra o incluso problemas de tipo teórico, al no haberse tenido en consideración la posible presencia de variables moduladoras.
Ahora bien, el estudio de la asociación entre dos variables categóricas desempeña un papel destacado como complemento en el análisis de tablas de contingencia, ya que, una vez se ha verificado la existencia de relación, habrá que precisar su intensidad.
A partir de la década de los cincuenta la importancia de esta temática ha quedado evidenciada en gran número de publicaciones, tal como son las de Goodman & Kruskal, 1954, 1963, 1972; Kendall & Stuart, 1980; Reynolds, 1977a/b; Bishop, Fienberg & Holland, 1975; Conover, 1980; Fienberg, 1987; Freeman, 1987; Liebetrau, 1985; Agresti, 1990, entre otros. Sin embargo, dado el gran número de índices de asociación que han ido presentándose a lo largo de estos años, puede resultar difícil la elección de uno de ellos, pudiendo depender ésta del hecho de contar con variables nominales u ordinales, tablas de contingencia <B><I>2x2</I></B>, o generalizadas para mayor número de niveles, coincidiendo gran número de autores en diferenciar tres grupos:
* Medidas de asociación basadas en el estadístico chi cuadrado.
* Medidas de asociación basadas en la razón de productos cruzados.
* Medidas de asociación orientadas a la reducción del error.
No obstante, Bishop et al. (1975) diferencian un cuarto elemento, y es el de aquellos índices cuyo principal objetivo es explicar cierta proporción de la varianza.
En general, cualquier elección vendrá mediatizada por las propiedades teóricas de la medida, tal como muestreo subyacente, distribución muestral, la corrección de efectos confundentes, su posible aplicación a estudios inferenciales (Goodman & Kruskal, 1963, 1972; Brown & Benedetti, 1972), así como por la interpretación que se pretenda, según se desee valorar relación, pronóstico, acuerdo, causa-efecto (relación simétrica vs. asimétrica), etc.
Ahora bien, entre los índices de asociación con mayor frecuencia utilizados se encuentran el <B><I>estadístico phi y el odds ratio o razón de productos cruzados</I></B>. El presente trabajo se centra en el primero de ellos. Partiendo de un par de variables aleatorias <B><I>X</I></B> e <B><I>Y</I></B>, codificadas numéricamente con dos niveles, su estimador de máxima verosimilitud, asumiendo un muestreo aleatorio cross-seccional, se obtendrá a partir de :

aunque también puede calcularse a partir del resultado obtenido tras la aplicación del estadístico chi cuadrado de independencia, método comúnmente utilizado en tablas de contingencia <B><I>IxJ</I></B>. No obstante, este procedimiento no resulta excesivamente recomendable debido a que siempre nos ofrecerá un resultado positivo con lo cual la valoración del sentido de la relación existente entre las variables puede verse dificultada.
En algunas ocasiones resulta de interés contrastar el valor obtenido, cuyo rango oscila entre ±1, con su posible valor máximo, el cual puede obtenerse partiendo de considerar fijas las frecuencias marginales. Ahora bien, manteniendo fijas dichas frecuencias marginales, <B>phi max</B>. vendrá dado, para tablas <I>2 x 2</I>, por:
donde ni es la frecuencia marginal máxima de las cuatro; nj es el complemento de ni, es decir, n..-ni; ñi es la frecuencia mayor de las dos restantes; ñj es su complemento, es decir, n..-ñi.
No obstante, algunos autores prefieren utilizar el valor ajustado:
El resultado obtenido para este estadístico, sin sufrir ningún tipo de modificación, ofrece una valiosa información para el análisis de tablas de contingencia, ya que ofrece el porcentaje de varianza explicado por una variable respecto a la otra:
En general, si disponemos de tablas de <B><I>IxJ</I></B> categorías, podemos contar con distintas alternativas a partir de phi cuadrado para la verificación de la asociación entre las variables consideradas. Los índice más frecuentemente utilizados son <B><I>el coeficiente C de contingencia, la T de Tschuprow y la V de Cramer</I></B>.
El <B><I>coeficiente C de contingencia</I></B>, vendrá expresado por:
estando su valor comprendido entre 0 y 1. No obstante, el valor del coeficiente C no alcanza el valor 1, incluso aunque las variables parezcan completamente relacionadas. En tablas cuadradas, en las que <B><I>I=J</I></B>, su valor máximo será
en esta situación se puede obtener un C ajustado calculando
donde Cmax. es el máximo valor de C para una tabla en particular. No obstante, algunos investigadores recomiendan que C no sea utilizado para tablas menores de 5x5 (Garson, 1976).
La T de Tschuprow, variará su valor entre 0 y 1, aunque solo puede lograr su valor máximo en tablas cuadradas (I=J), dado que cuando I no es igual a J el valor del estadístico T será menor que 1. Esta prueba vendrá dada por la siguiente expresión:
El <B><I>estadístico V</I></B> propuesto por Cramer corrige, en parte, las deficiencias de C y T, dado que puede alcanzar un valor máximo en tablas asimétricas, aunque resulta más compleja su interpretación. La <B><I>V de Cramer</I></B> se obtendrá a partir de
donde <B><I>m</I></B> será el menor valor de <B><I>(I-1)</I></B> o <B><I>(J-1)</I></B>.
Sin embargo, existen algunos problemas teóricos que afectan la utilidad de phi como medida de la relación entre dos variables aleatorias. A continuación se detallan las más relevantes:
* El coeficiente phi, al igual que otros coeficientes de correlación para tablas de contingencia, se considerará como un estimador válido de la asociación, cuando el método de muestreo haya sido de tipo cross-seccional, pero en caso de aplicarse a estudios prospectivos y retrospectivos, los valores obtenidos no serían comparables.
* Su interpretación no es intuitivamente clarificadora, especialmente cuando su valor no es extremo, por ello, el único procedimiento razonable para interpretar su valor es compararlo con los obtenidos por otros investigadores, tras trabajar con las mismas o parecidas variables. Asimismo, el resultado obtenido sólo puede llegar a la unidad bajo condiciones de asociación perfecta.
Su límite superior no queda definido cuando su obtención se deriva de tablas <I>IxJ</I>.
* Su resultado es sensible a los valores de las distribuciones marginales, ya que si éstas difieren notablemente, independientemente de que las distribuciones condicionales de probabilidad fuesen idénticas, los valores para los coeficientes podrían ser muy diferentes, pudiendo concluirse que existe heterogeneidad entre distintos estudios. En general, cuanto mayor sea la falta de equilibrio menor será su valor, permaneciendo constantes el resto de condiciones.
* Si <I>X</I> e <I>Y</I> hubiesen sido variables continuas dicotomizadas, el valor del coeficiente dependería del punto de corte seleccionado, por ejemplo, haber tomado la media o la mediana (Carroll, 1961), siendo éste uno de los argumentos de Pearson para proponer en 1948, el <B><I>coeficiente C de contingencia</I></B>.
Algunos de estos argumentos hicieron que Goodman & Kruskal (1954) concluyeran que no encontraban razón alguna para seguir haciendo uso del <I>estadístico phi</I>. No obstante, su papel complementario en tablas de contingencia, así como su aplicación en psicometría, en el análisis de items dicotómicos, hacen su estudio necesario, no solamente como estadístico descriptivo, o como componente de una matriz de correlaciones, para ser tenido en cuenta en posteriores análisis, sino también como instrumento inferencial, sin olvidar su inclusión como técnica de resumen dentro de una perspectiva meta-analítica, que incorpore estudios en los que se analicen fundamentalmente variables categóricas, tal como pueden ser los epidemiológicos.
El error estándar de phi para muestras de tamaño suficientemente amplio se obtendrá a partir de:

el cual nos permitirá obtener la estimación por intervalo del valor de f para la población, de tal modo que:
Ahora bien, teniendo en cuenta la utilidad de este estadístico, es de destacar la complejidad de cálculo que conlleva la obtención de su error estándar, el ligero sesgo de su valor estimado, así como la limitación en la cobertura de su intervalo de confianza (Miller, 1974). Muchos de los estimadores factibles de utilizar en el análisis de datos categóricos, tales como el de máxima verosimilitud, la distancia mínima de Hellinger, etc., ofrecen estimaciones sesgadas. Para soslayar esta deficiencia pueden adoptarse diferentes acercamientos, tal como el método de diferenciales (Salama, Koch & Tolley, 1978), o el método <B><I>"Jackknife"</I></B> menos complejo que el anterior. Este método fue presentado en 1949 y 1956 por Quenouille, siendo posteriormente desarrollado por Tukey en 1958, siendo este autor quien acuñó la terminología, conocida con el nombre de <B><I>"Jackknife"</I></B>, pudiendo consultarse el artículo de Miller (1974) si se desea una revisión, o los trabajos de Fleiss & Davies (1982) y Henry (1981).
EJEMPLOS NUMÉRICOS
Al objeto de clarificar algunas de las cuestiones anteriores expuestas, a continuación ofrecemos una serie de ejemplos obtenidos en el contexto educativo, los cuales nos pueden ser de gran utilidad para comprender la necesidad de considerar <B><I>medidas o índices de varianza explicada</I></B>, y no sólo interpretar los resultados a partir del grado de significación de los resultados.
Ejemplo 1
El primero de los ejemplos que vamos a considerar nos muestra los datos obtenidos a partir de una muestra de escolares de 8º de E.G.B. pertenecientes a un centro educativo ubicado en una zona con graves problemas socio-económicos. En la Tabla II se clasifica a dichos escolares en función de su respuesta, en una escala dicotómica, a las siguientes dos cuestiones: <I>a) Creo que uno tiene derecho a divertirse aunque no haya cumplido antes con sus obligaciones y b) Siempre hago todos los deberes que manda el profesor.</I>
Podemos comprobar que la relación existente entre ambas variables resulta altamente significativa, pero la cantidad de varianza explicada resulta escasa, dado que solamente podríamos explicar un 11 % de la variación.
Sin embargo, si los resultados hubieran sido invertidos erróneamente, tal como se indica en la Tabla III, aún contando con el mismo nivel de significación, y manteniendo constante el número total de sujetos en el estudio, la valoración de los resultados hubiera sido muy distinta al estar explicando un 41 % de la varianza, existiendo, por tanto, un mayor predictivo.
Ejemplo 2
El segundo ejemplo nos ofrece los resultados obtenidos a partir de una muestra de escolares de E.G.B., pertenecientes a distintos centros, a los cuales asisten alumnos cuyas familias pertenecen a una clase media urbana. A estos escolares se les formularon, entre otras, las siguientes cuestiones: <I>a) Para mi familia es muy importante triunfar en la vida y b) Cuando pierdo en un juego me siento un fracasado.</I> Las respuestas a ambas cuestiones se incorporan en la Tabla IV:
Tal como puede observarse, de los resultados obtenidos, no se desprende que exista relación entre las variables consideradas, aún a pesar de que a priori era razonable esperar que así ocurriera. Tal como se observa, tanto los índices de asociación, como el de varianza explicada son realmente bajos, al igual que el nivel de significación para los mismos.
Pero, si tomamos en consideración el efecto de la variable sexo como posible variable moduladora nos encontramos con una situación bien distinta, tal y como, podemos comprobar a partir de las Tablas V y VI, las cuales contienen los resultados, estratificando según el sexo de los alumnos.
En ambos casos se verifica la existencia de relación entre las variables, aunque en direcciones distintas, y en distinta cuantía. De este modo, podemos comprobar cómo pueden verse afectados los resultados de nuestra investigación por el efecto de terceras variables no tomadas en consideración.
Ejemplo 3
De igual manera, nos podríamos encontrar ante resultados significativos para la totalidad de los sujetos bajo estudio, lo cual, nos conduciría a la generalización de dichos resultados para todos los individuos. No obstante, el efecto de terceras variables podría estar distorsionando igualmente los análisis. De este modo, puede ocurrir que, para algunas categorías de la variable moduladora sí se verificara la asociación, mientras que no para otras.
El siguiente ejemplo muestra lo indicado en el párrafo anterior. Para ello, disponemos de una muestra de 206 alumnos 8º de E.G.B. de los cuales 111 son chicos y 95 son chicas. Las variables tenidas en cuenta en esta ocasiones fueron: <I>a) El profesor aclara cuales son las normas de la clase y b) En general, el profesor es muy estricto.</I> Así, las Tablas VII, VIII y IX contienen los resultados para toda la muestra, y los correspondientes a cada uno de los sexos respectivamente.
Conclusiones
Resulta evidente el fuerte incremento en el número de estudios aplicados en el ámbito de la Psicología Educativa, que incorporan medidas de varianza explicada en la interpretación de sus resultados, dado que la simple observación del nivel de significación de las pruebas estadísticas resulta insuficiente, e incluso, en algunas situaciones, problemática.
Por ello, el análisis de la asociación entre dos variables categóricas la interpretación del coeficiente phi cuadrado como medida de asociación y como índice de varianza explicada, resultará de gran utilidad a la hora de verificar la relación e intensidad de una asociación tanto para tablas 2x2 como para su generalización a tablas de IxJ, aún sin perder de vista la existencia de limitaciones importantes. No obstante, resultará posible reducir el sesgo de dicho estimador a partir de métodos tales como, es el método "Jackknife", que ofrece estimaciones más próximas al valor del parámetro poblacional.
En los ejemplos numéricos analizados se consideran algunos aspectos de interés. Así, hemos podido constatar la insuficiencia de la interpretación de una prueba a partir de su significación estadística, dado que, manteniendo constante dicha significación el porcentaje de varianza explicada puede variar de forma importante de una prueba a otra, aún manteniendo el mismo número de sujetos. Además, se constata que el resultado de un test estadístico puede aparecer como no significativo a causa del efecto de variables moduladores no tomadas en consideración y que tras proceder a estratificar la muestra en sus distintas categorías, aparecer la significación entre las variables relevantes consideradas.
Referencias
Agresti, A. (1990). Categorical data analysis. Wiley. New York.
Bishop, Y.M.M., Fienberg, S.E., & Holland, F.W. (1975). Discrete Multivariate Analysis. Massachusetts Institute of Technology Press.
Brown, M. B. & Benedetti, J. K. (1972). Sampling behavior of tests for correlation in two-way contingency tables. Journal of the American Statistical Association, 72. 309-315.
Conover, W. J. (1980). Practical nonparametric statistics. John Wiley. New York.
Fienberg, S.E. (1987). The analysis of cross-classified categorical data. 2nd Ed. MIT Press, Cambridge.
Fleiss, J. L. & Davies, M. (1982). Jackknifing functions of Multinomial frequencies, with an application to a measure of concordance. American Journal of Epidemiology, 115. 841-845.
Freeman, D. H. (1987). Applied categorical data analysis. Marcel Dekker. New York.
Garson, G. C. (1976). Political Science Methods. Boston: Holbrook.
Goodman, L. A. & Kruskal, W. H. (1954). Measures of association for cross-classifications. Art I. J. Am. Statist. Assoc, 49. 732-764.
Goodman, L. A. & Kruskal, W. H. (1963). Measures of association for cross-classifications. Part III. Approximate sampling theory. J. Am. Statist. Assoc. 58, 310-364.
Goodman, L. A. & Kruskal, W. H. (1972). Measures of association for cross-classifications. Part IV. Simplification of asymptotic variances. J. Am. Statist. Assoc., 67. 415-421.
Henry, N. W. (1981). Jackknifing measures of association. Sociological methods and research. 10. 233-239.
Kendall, M. G. & Stuart, A. (1980). The advanced theory of Statistics. Edward Arnold. London.
Liebetrau, A. M. (1985). Measures of association. Sage University Papers series on Quant. Aplications in the Social Sciences. 07-032. Beverly Hills. CA. Sage.
Miller, R. G. (1974). The jackknife - a review. Biometrika, 61. 1-15.
O'Grady, K. E. (1982). Measures of explained variance: cautions and limitations. Psychological Bulletin, vol. 92, 766-777.
Parr, W. C. & Tolley, H. D. (1982). Jackknifing in categorical data analysis. Annal. J. Statist., 24. 67-79.
Quenouille, M. H. (1956). Notes on bias in estimation. Biometrika, 43, 353-360.
Reynolds, H. T. (1977a). The analysis of cross-classifications. Free. New York.
Reynolds, H. T. (1977b). Analysis of Nominal Data. Sage University Papers series on Quant. Aplications in the Social Sciences. 07-007. Beverly Hills. CA. Sage.
Salama, I. A., Koch, G. G., & Tolley, H. D. (1978). On the estimation of the most probable number in a serial dilution experiment. Comm. Statist. A. Theory Methods, 7. 1267-1281.