Mejorar la práctica de información estadística es un tema importante en las Ciencias de la Salud y Ciencias Sociales. La presentación precisa de los resultados de investigación es clave para el avance del conocimiento y la difusión de los hallazgos. Cuando se informa del resultado de un estudio cuantitativo, la American Psychological Association [APA] (1999, 2001, 2010) y la American Educational Research Association [AERA] (2006) recomiendan incluir la estimación del tamaño del efecto y sus intervalos de confianza así como la interpretación cualitativa de la magnitud del efecto en el contexto de los efectos reportados previamente. Así pues, ya no basta con comparar grupos de tratamiento y obtener el valor p de significación estadística, además hay que estimar los tamaños del efecto y sus intervalos de confianza.
En este contexto de reforma estadística, el principal objetivo del presente trabajo es analizar la repercusión o impacto que las recomendaciones en la presentación de los resultados de investigación de la APA y de AERA tienen en la práctica de informar y discutir sobre el tamaño del efecto en los artículos publicados por la "Revista Psicothema" y la ?Revista de Educación? en los últimos cinco años (2007-2012). Tras un muestreo aleatorio estratificado (estrato: años) de los estudios cuantitativos publicados entre 2007 y 2012 por las citadas revistas, se han analizado 116 estudios cuantitativos, de los cuales 70 fueron publicados por la ?Revista de Psicothema? y 46 por la ?Revista de Educación? entre 2007 y 2012. Los resultados señalan un escaso impacto de las recomendaciones de la APA y AERA.
Informar e interpretar el tamaño del efecto en psicología y Educación
Badenes-Ribera, Laura, Frías-Navarro, Dolores, Monterde-i-Bort, Héctor, Pascual-Soler, Marcos
Universidad de Valencia
Facultad de psicología. Departamento de Metodología de las Ciencias del Comportamiento. Universidad de Valencia, España. M. Dolores. Frias@uv. es
Investigación financiada por el ‘Ministerio de Economía y Competitividad’ (I+D+i), España (EDU2011-22862)
Trabajo presentado en el 14º Congreso Virtual de Psiquiatria, Interpsiquis 2013 (http://www. psiquiatria. com/interpsiquis2013/ )
Resumen
Mejorar la práctica de información estadística es un tema importante en las Ciencias de la Salud y Ciencias Sociales. La presentación precisa de los resultados de investigación es clave para el avance del conocimiento y la difusión de los hallazgos. Cuando se informa del resultado de un estudio cuantitativo, la American Psychological Association (APA) (2001, 2010) y la American Educational Research Association (AERA) (2006) recomiendan incluir la estimación del tamaño del efecto y sus intervalos de confianza así como la interpretación cualitativa de la magnitud del efecto en el contexto de los efectos reportados en la investigación previa. Así pues, ya no basta con comparar grupos de tratamiento y obtener el valor p de significación estadística, además hay que estimar los tamaños del efecto y sus intervalos de confianza. En este contexto de reforma estadística, el principal objetivo del presente trabajo es analizar la repercusión o impacto que las recomendaciones en la presentación de los resultados de investigación de la APA y de AERA tienen en la práctica de informar y discutir sobre el tamaño del efecto en los artículos publicados por la "Revista Psicothema" y la “Revista de Educación” en los últimos cinco años (2007-2012). Tras un muestreo aleatorio estratificado (estrato: años) de los estudios cuantitativos publicados entre 2007 y 2012 por las citadas revistas, se han analizado 116 estudios cuantitativos, de los cuales 70 fueron publicados por la “Revista de Psicothema” y 46 por la “Revista de Educación” entre 2007 y 2012. Los resultados señalan un escaso impacto de las recomendaciones de la APA y AERA.
La forma más frecuente de realizar un proceso de inferencia estadística consiste en ejecutar la prueba de significación de la hipótesis nula (Null Hypothesis Significance Testing, NHST) introducida por Fisher en 1925 (Kirk, 1996; Lehmann, 1993; Pascual, Frías-Navarro & García, J. F. (1996). Este procedimiento tiene una larga historia y una gran tradición en su aplicación por parte de los investigadores pero también ha recibido muchas críticas desde su introducción (véase una revisión en Daniel, 1998; Good & Hardin, 2012; Kline, 2004; Nickerson, 2000; Pascual, Frías-Navarro & García, 2000) provocando cambios importantes en las normas de publicación científica desde finales del siglo XX, dando lugar a la denominada “reforma estadística”. En el trabajo de Cumming, Fidler, Leonard, Kalinowski, Christiansen & cols. (2007) sobre la reforma estadística en psicología se señala que en el 97% de los artículos publicados en 10 revistas internacionales de psicología se utiliza la prueba de significación de la hipótesis nula.
La reforma estadística, que se está llevando a cabo desde hace años y que es el origen de los cambios en las políticas editoriales de las revistas, enfatiza la estimación del tamaño del efecto junto a los valores p de probabilidad para evitar ese sesgo de interpretación que durante años ha minado los trabajos de investigación confundiendo ‘significación estadística’ con ‘importancia de los efectos hallados’. El uso de los tamaños del efecto y sus intervalos de confianza se ha convertido en una nueva práctica del investigador que va cobrando fuerza gracias al apoyo de las políticas editoriales de instituciones como la American Psychological Association (APA) o la American Educational Research Association (AERA). El movimiento de la medicina basada en la evidencia (MBE) y, en general, el de la Práctica Basada en la Evidencia (PBE) tiene un punto de arranque en la toma de conciencia de los problemas vinculados al procedimiento de significación de la hipótesis nula como único medio para producir descubrimientos, enfatizando el uso de las revisiones sistemáticas y la estimación del tamaño del efecto (Sackett, Strauss, Richardson, Rosenberg & Haynes, 2000).
El propio grupo de trabajo de inferencia estadística de la American Psychological Association (American Psychological Association, 1996; Wilkinson and the Task Force on Statistical Inference, 1999) propone en su informe final acompañar las pruebas de significación estadística con otros métodos estadísticos como el tamaño del efecto y sus intervalos de confianza o la aplicación de la estadística bayesiana (Chalmers, 1999). Es esencial, en opinión del grupo de trabajo, informar del tamaño del efecto y su intervalo de confianza e interpretarlo dentro del contexto de los valores de tamaño del efecto obtenidos en investigaciones previas (p. 599). Dicho informe provocó cambios importantes en las recomendaciones de la quinta edición del Manual de Publicación de la American Psychological Association (2001) que permanecen en la sexta edición de 2010 (American Psychological Association, 2010), destacando la necesidad de acompañar siempre los resultados exactos del valor p de probabilidad de la prueba estadística (aunque el resultado no sea estadísticamente significativo) con la estimación del tamaño del efecto o de la magnitud de la relación entre las variables (Frías-Navarro, 2011). También el International Committee of Medical Journal Editors (ICMJE) advirtió en 1988 de los peligros de la dependencia exclusiva de las pruebas de signficación estadística, sugiriendo complementar esa información con el uso de los intervalos de confianza.
Como consecuencia de la reforma estadística, las políticas editoriales de las revistas también incluyen nueva normativa sobre los análisis estadísticos y se han creado líneas de investigación específicas para el desarrollo de software que contengan las técnicas que los grandes paquetes estadísticos aún no han incluido en los menús de su software como es el caso del SPSS. El siglo XXI comienza con un espíritu de reforma estadística que paulatinamente va cobrando fuerza y presencia en las publicaciones científicas.
La reforma estadística cambia el punto de mira desde “cómo es de probable o improbable el resultado muestral” hacia dos cuestiones principalmente: “cómo es de grande el tamaño del efecto detectado” y “si se puede replicar”. Es decir, hay que ‘evaluar’ el valor del tamaño del efecto estimado y su utilidad (su grado de importancia práctica, clínica o sustantiva) y para ello es necesario considerar el contexto de la investigación y comparar los resultados de forma explícita y directa con los obtenidos en el área de investigación donde se enmarca el trabajo (Cumming & Fidler, 2009; Cumming & Finch, 2005; Wilkinson & the Task Force on Statistical Inference, 1999). Además, la replicabilidad del efecto supone evaluar cómo de estables son los efectos en la literatura revisada y por lo tanto evaluar en qué medida son efectos directamente comparables. En definitiva, el nuevo comportamiento del investigador supone desarrollar el denominado “pensamiento meta-analítico” (Cumming & Finch, 2001).
En este contexto de reforma estadística, el principal objetivo del presente trabajo es analizar la repercusión o impacto que las recomendaciones en la presentación de los resultados de investigación de la APA y de AERA tienen en la práctica de informar y discutir sobre el tamaño del efecto en los artículos publicados por las revistas españolas de "Revista Psicothema" y la “Revista de Educación” en los últimos cinco años (2007-2012).
Método
Muestra y selección de artículos
La población de artículos publicados desde el año 2007 hasta julio de 2012 en las revistas Psicothema y Revista de Educación está formada por 1137 artículos. Conocido el tamaño de la población se estableció como criterio a priori que el tamaño muestral requerido era el 10% de los artículos publicados en cada una de las revistas analizadas (ver tabla 1).
Tabla 1 Población y muestra
Revista
N
10%
n
Psicothema
682
68. 2
70
Revista de Educación
455
45. 5
46
Total
1137
113. 7
116
La muestra de artículos está compuesta por 116 estudios empíricos primarios de los cuales 70 están publicados en Psicothema y 46 en la Revista de Educación. La selección de los casos se llevó a cabo mediante un muestreo aleatorio estratificado (estrato es el año) proporcional (ver tabla 2). La revista Psicothema ha publicado en los años revisados un total de 682 artículos (N). Aplicando el criterio de analizar el 10% del total de trabajos publicados por la revista (criterio a priori adoptado por los investigadores) se revisaron 70 artículos (68. 2). La selección de los 70 artículos se efectuó teniendo en cuenta la proporción de artículos que cada año se publican en la revista dado que van variando año a año. Por ejemplo, durante el año 2007 se publicaron 102 artículos que representan el 15% (14. 5) del total de los artículos publicados (N=682). Para preservar ese porcentaje en el total de artículos revisados en nuestra investigación se calculó el 15% sobre 70 que es el total de muestra que se revisó en el trabajo (10% de 682). Por lo tanto, el número de artículos que se revisaron durante el 2007 fue de 11 (10. 5).
Tabla 2 muestreo aleatorio estratificado por año y número final de artículos para revisar en Psicothema
Año
n
% de 682
% sobre 70
Muestra por año
2007
102
14. 95 ≈ 15
15% de 70=10. 5
11
2008
145
21. 26 ≈ 21. 3
21. 3% de 70=14. 91
15
2009
101
14. 80
14. 8% de 70=10. 36
10
2010
154
22. 58 ≈ 22. 6
22. 6% de 70=15. 82
16
2011
129
18. 91 ≈ 19
19% de 70=13. 3
13
2012
51
7. 47 ≈ 7. 5
7. 5% de 70=5. 25
5
N
682
≈100
n≈70
Total: 70
En el caso de la Revista de Educación se han publicado un total de 455 artículos durante el período analizado (ver tabla 3). Siguiendo con el criterio de analizar el 10% del total de trabajos publicados por la revista, se revisaron 45 artículos. La selección de los 45 artículos se efectúo teniendo en cuenta la proporción de artículos que cada año se publican en la revista tal y como se ha realizado con la revista Psicothema. Por ejemplo, durante el año 2007 se publicaron 86 artículos que representan el 18. 9% del total de publicados (N=455). Para preservar ese porcentaje en el total de artículos revisados se calculó el 18. 9% sobre 45 que es el total de muestra que se revisó en nuestro trabajo (10% de 455). Por lo tanto, el número de artículos que se revisaron durante el 2007 es de 9 (8. 5).
Tabla 3 muestreo aleatorio estratificado por año y número final de artículos para revisar en la Revista de Educación
Año
n
% de 455
% sobre 45
Muestra por año
2007
86
18. 9
18. 9% de 45=8. 5
9
2008
72
15. 82 ≈ 15. 9
15. 9% de 45=7. 16
7
2009
79
17. 36 ≈ 17. 4
17. 4% de 45=7. 83
8
2010
92
20. 21 ≈ 20. 3
20. 3% de 45=9. 14
9
2011
98
21. 53 ≈ 21. 6
21. 6% de 45=9. 72
10
2012
28
6. 15 ≈ 6. 2
6. 2% de 45=2. 79
3
N
455
≈100
n≈45
Total: 46
Instrumentos y variables
Se creó un protocolo de revisión de la información de diseño estadístico con el objetivo de medir las siguientes variables en cada uno de los artículos:
-Metodología utilizada en el estudio empírico primario. Evalúa la metodología de estudio llevada a cabo a partir de una escala de respuesta categórica: análisis teórico (1), análisis cualitativo (2), cuantitativo con pruebas de inferencia estadística (3), cuantitativo descriptivo (4), mixto con pruebas de inferencia estadística (5), mixto descriptivo (6), otros (7).
-Indicador del Tamaño del Efecto. Evalúa si el artículo informa sobre algún tipo de estadístico del tamaño del efecto. La escala de respuesta es binomial (sí, no).
-Tipo de estadístico del Tamaño del Efecto. Recoge información sobre los indicadores del tamaño del efecto utilizados en el artículo. La escala de respuesta es binomial (si, no) para cada uno de los estadísticos del tamaño del efecto evaluados: eta (sí, no), R2 (si, no), “d” de Cohen de diferencia de medias tipificada (si, no), “f” de Cohen (si, no), correlación biserial puntual (sí, no) “V” de Cramer (si, no), “Phi” de Cramer (si, no) Omega2 (si, no), odds Ratio (sí, no), riesgo Relativo (sí, no), “g” de Hedges (sí, no), delta de Glass (sí, no) y correlación intraclase (sí, no) (Frías-Navarro, 2011).
-Intervalos de Confianza del Tamaño del Efecto. Evalúa si se informa sobre los intervalos de confianza del estadístico del tamaño del efecto reportado en el artículo. Se mide con una escala de respuesta binomial (si, no).
-Interpretación del Tamaño del Efecto. Mide en una escala de respuesta binomial (sí, no) si el artículo realiza en el apartado de resultados algún tipo de interpretación cualitativa o sustantiva del tamaño del efecto estimado.
-Proporción de varianza explicada. Evalúa si la interpretación del tamaño del efecto que proporciona el artículo versa sobre la proporción de varianza explicada. La escala de respuesta es binomial (sí, no).
Procedimiento
En primer lugar, se contabilizó la totalidad de los artículos publicados en las revistas Psicothema y Revista de Educación desde el año 2007 hasta julio del año 2012. Seguidamente se estableció el tamaño muestral elegido a priori por los investigadores como el 10% del total de trabajos publicados. Después, se llevó a cabo para cada una de las revistas un muestreo aleatorio estratificado proporcional por años con el fin de garantizar que la muestra de artículos fuese representativa y proporcional de la población de artículos publicados. La técnica de proporcionalidad ya se ha comentado previamente.
Para la aplicación del muestreo aleatorio recurrimos a la generación de números aleatorios mediante el SPSS, repitiendo el muestreo para cada revista (Pascual-Soler, 2011). El coeficiente de elevación fue de 10 en las dos revistas (682/70 y 455/45). Gracias al SPSS se seleccionaron de forma aleatoria el punto de arranque del muestreo que osciló entre 1 y 10. En el caso de la revista Psicothema el punto de arranque fue 5 y en la Revista de Educación el 2. Posteriormente y de forma sistemática se seleccionaron los artículos de forma periódica y consecutiva cada 10 artículos.
Sin embargo, conviene tener en cuenta una restricción que se aplicó en el muestreo aleatorio sistemático. Si el artículo seleccionado no era un estudio empírico primario con pruebas de inferencia estadística se descartaba y se analizaba el artículo inmediatamente posterior. Y así sucesivamente hasta seleccionar tantos casos por año como el muestreo estratificado señalaba (70 para Psicothema y 46 para la Revista de Educación).
Resultados
En la tabla 4 se describe el número y porcentaje de artículos revisados en función de la metodología de estudio utilizada. Se observa que el 95% de los artículos (n=105) son cuantitativos mientras que el 9. 5% son mixtos (n=11). Por revistas, en Psicothema el 100% de los artículos (n=70) utilizan una metodología cuantitativa mientras que en la Revista de Educación el 23. 9% utilizan una metodología mixta (n=11) y el 76. 1% cuantitativa (N=35).
Tabla 4. Frecuencia y porcentaje de artículos en función de la metodología dominante por revistas y año.
Total
Cuantitativo
Mixto
Revista
n
n
%
n
%
Psicothema
70
70
100
0
0
Revista de Educación
46
35
76. 1
11
23. 9
Año
2007
20
17
85. 0
3
15. 0
2008
22
22
100
0
0
2009
18
16
88. 9
2
11. 1
2010
25
23
92. 0
2
8. 0
2011
23
19
82. 6
4
17. 4
2012
8
8
100
0
0
Total
116
105
90. 5
11
9. 5
En las Tablas 5 y 6 se describe el uso del estadístico del tamaño del efecto. Cabe señalar que cuando se informa sobre el tamaño del efecto en un artículo, frecuentemente, se reporta más de un tipo de indicador o estadístico. La tabla 5 muestra la frecuencia y porcentaje de artículos que informan sobre algún indicador del tamaño del efecto. En ella se observa cómo la mayoría de los artículos revisados (63. 8%) no incluyen ninguna estimación del tamaño del efecto (n=74). Así, sólo en el 36. 2 % de los casos se informa sobre el tamaño del efecto observado en los datos (n=42). Por revistas, se aprecia que el 80. 4% de los artículos publicados en la Revista de Educación (n=37) y el 52. 9% de los publicados en Psicothema (n=37) no reportan ningún tipo de estadístico del tamaño del efecto.
Por años, se observa desde 2010 una tendencia a informar sobre el tamaño del efecto. Así, en el año 2010 el 40% de los artículos (n=10) incluyen alguna estimación del tamaño del efecto, en el año 2011 el 43. 5% (n=10) y, finalmente, en el año 2012 el 50% (n=4). Recordar que en el año de 2012 la revisión solamente se ha realizado hasta Julio.
Tabla 5 Frecuencia y porcentaje de artículos que informan sobre el Tamaño del efecto (TE) por revista y año
Sí
No
Revista
n
%
n
%
Psicothema
33
47. 1
37
52. 9
Revista de Educación
9
19. 6
37
80. 4
Año
2007
5
25. 0
15
75. 0
2008
9
40. 9
13
59. 1
2009
4
22. 2
14
77. 8
2010
10
40. 0
15
60. 0
2011
10
43. 5
13
56. 5
2012
4
50. 0
4
50. 0
Total
42
36. 2
74
63. 8
Los indicadores del tamaño del efecto más utilizados son R2 (45. 2%), eta (40. 5%) y “d” de Cohen (16. 7%) mientras que apenas se utilizan la odds Ratio (4. 8%), riesgo Relativo (4. 8%), correlación biserial puntual (4. 8%), Omega2 (2. 4%), “V” de Cramer (2. 4%), “Phi” de Cramer (2. 4%), “f” de Cohen (2. 4%) y, ningún uso del tamaño del efecto denominado “g” de Hedges, delta de Glass y la correlación intraclase (ver tabla 6).
Tabla 6 Frecuencia y porcentaje del tipo de estadístico de TE informado por revista y año
Eta
R2
d
de Cohen
f
R
biserial
V
de Cramer
Phi
de Cramer
Omega2
OR
RR
Revista
n
%
n
%
n
%
n
%
n
%
n
%
n
%
n
%
n
%
n
%
Psicothema
16
48. 5
14
42. 4
7
21. 2
1
3. 0
2
6. 1
0
0
1
3. 0
1
3. 0
1
3. 0
1
3. 0
Revista de Educación
1
11. 1
5
55. 6
0
0
0
0
0
0
1
11. 1
0
0
0
0
1
11. 1
1
11. 1
Año
2007
1
20. 0
2
40. 0
1
20. 0
0
0
0
0
1
20. 0
0
0
0
0
0
0
0
0
2008
4
44. 4
6
66. 7
2
22. 2
1
11. 1
0
0
0
0
0
0
0
0
1
11. 1
1
11. 1
2009
3
75. 0
2
50. 0
0
0
0
0
1
25. 0
0
0
0
0
0
0
0
0
0
0
2010
4
40. 0
2
20. 0
1
10. 0
0
0
0
0
0
0
1
10. 0
0
0
1
10. 0
1
10. 0
2011
4
40. 0
4
40. 0
3
30. 0
0
0
1
10. 0
0
0
0
0
1
10. 0
0
0
0
0
2012
1
25. 0
3
75. 0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
Total
17
40. 5
19
45. 2
7
16. 7
1
2. 4
2
4. 8
1
2. 4
1
2. 4
1
2. 4
2
4. 8
2
4. 8
En la tabla 7 se muestra la frecuencia y porcentaje de artículos que cuando estiman el tamaño del efecto acompañan dicha estimación con su intervalo de confianza. A este respecto, el 90. 5% de los artículos (n=38) no incluyen los intervalos de confianza del tamaño del efecto cuando informan sobre el mismo. Dicho de otro modo, sólo el 9. 5% de los artículos (n=4) incluye la estimación del tamaño del efecto y sus intervalos de confianza. Por revistas se observa el mismo hecho. Así en el 90. 9% de los artículos publicados en Psicothema (n=30) y el 88. 9% de los artículos publicados en la Revista de Educación (n=8) no estiman los intervalos de confianza del tamaño del efecto informado.
Tabla 7 Frecuencia y porcentaje de artículos que informan sobre el TE y sus intervalos de confianza por revista y años
Sí
No
Revista
n
%
n
%
Psicothema
3
9. 1
30
90. 9
Revista de Educación
1
11. 1
8
88. 9
Año
2007
0
0
5
100
2008
2
22. 2
7
77. 8
2009
0
0
4
100
2010
2
20. 0
8
80. 0
2011
0
0
10
100
2012
0
0
4
100
Total
4
9. 5
38
90. 5
Las Tablas 8 y 9 hacen referencia a la interpretación del tamaño del efecto informado (n=42). La tabla 8 muestra que el 64. 3% de los artículos que estiman el tamaño del efecto realizan una interpretación cualitativa o sustantiva del mismo (n=27). Esta interpretación cualitativa en el 63% de los casos (n=17) versa sobre la proporción de varianza explicada (ver tabla 9).
Por revistas, en la tabla 8 se observa que el 100% de los artículos de la Revista de Educación (n=9) interpretan de forma sustantiva los tamaños del efecto informados frente al 54. 5% de Psicothema (n=18). Así, el 45. 5% de los artículos publicados en Psicothema (n=15) no interpretan el tamaño del efecto. Por años, desde el 2010 hasta la actualidad, el 50% de los artículos publicados en ambas revistas que informan sobre algún indicador del tamaño del efecto realizan una interpretación del mismo. Sin embargo, el índice de interpretaciones del tamaño del efecto reportado es mayor en los años anteriores al 2010.
Tabla 8 Frecuencia y porcentaje de artículos que informan e interpretan el TE
Sí
No
Revista
n
%
n
%
Psicothema
18
54. 5
15
45. 5
Revista de Educación
9
100
0
0
Año
2007
3
60. 0
2
40. 0
2008
8
88. 9
1
11. 1
2009
4
100
0
0
2010
5
50. 0
5
50. 0
2011
5
50. 0
5
50. 0
2012
2
50. 0
2
50. 0
Total
27
64. 3
15
35. 7
Como ya se ha comentado, la mayoría de los investigadores interpretan el tamaño del efecto como la proporción de varianza explicada (63%). Así pues, sólo en el 37% de los casos en los que se interpreta el tamaño del efecto se hace de manera distinta a la proporción de varianza.
Tabla 9 Frecuencia y porcentaje de artículos que interpretan el TE como varianza explicada por revista y años
Sí
No
Revista
n
%
n
%
Psicothema
11
61. 1
7
38, 9
Revista de Educación
6
66. 7
3
33. 3
Año
2007
1
33. 3
2
66. 7
2008
5
62. 5
3
37. 5
2009
4
100
0
0
2010
3
60. 0
2
40. 0
2011
2
40. 0
3
60. 0
2012
2
100
0
0
Total
17
63. 0
10
37. 0
Discusión
El tamaño del efecto es clave para la interpretación de los resultados de un estudio pues ayuda a los lectores a entender la magnitud del efecto o la covariación entre las variables. La APA (1999, 2001, 2010) y la AERA (2006) recomiendan incluir la estimación del tamaño del efecto y sus intervalos de confianza así como la interpretación cualitativa de la magnitud del efecto en el contexto de los efectos reportados previamente. Sin embargo, la mayoría de los artículos publicados en las revistas españolas de Psicothema y Revista de Educación no incluyen ningún estimador del tamaño del efecto (63. 8%) y, cuando lo incluyen generalmente no lo acompañan de su intervalo de confianza (90. 5%). Además, seguramente la interpretación del tamaño del efecto está relacionada con el uso del programa estadístico SPSS pues la mayoría de los investigadores interpretan el tamaño del efecto como la proporción de varianza sin hacer mención alguna a la magnitud del efecto en el contexto de los efectos reportados previamente. Dicho índice de proporción de varianza explicada puede ser computado cuando se ejecuta un modelo de análisis de la varianza con el SPSS. La falta de contextualización de los tamaños del efecto y el desarrollo del pensamiento meta-analítico de los investigadores impide el desarrollo de interpretaciones basadas en la magnitud del efecto. Por ello, las interpretaciones de los hallazgos siguen basándose en las pruebas de significación de la hipótesis nula.
No obstante, si se atiende a una secuencia temporal de las publicaciones se observa un efecto positivo en ambas revistas de las recomendaciones de la APA (2010) pues desde el año 2010 existe una tendencia a informar sobre algún indicador del tamaño del efecto. Esta tendencia tendrá que ser confirmada cuando se complete el año 2012 y continuar con el seguimiento. Las políticas editoriales de las revistas ya tienen en sus normativas el uso del tamaño del efecto y sus intervalos de confianza. Sólo falta la aplicación de las recomendaciones de una manera efectiva: estimar e interpretar.
Los estudios sobre la calidad de los artículos publicados señalan la presencia de importantes defectos en la elaboración del informe de investigación así como errores estadísticos graves (Altman, 2002; McGuigan, 1995). ello afecta al estudio primario o artículo de investigación pero también a los estudios secundarios de revisión sistemática y meta-análisis que tienen que trabajar con informes con errores y/o informes inadecuadamente presentados, dificultando, e incluso en ocasiones impidiendo, su uso en el desarrollo del trabajo de revisión. Como Altman (2002) señala, “los errores en los artículos de investigación publicados indican que la investigación sin calidad sobrevive al proceso de revisión de pares” (página 2765). Y continúa el autor, pero por qué se envían a publicar trabajos de investigación con escasa calidad. Quizás porque los investigadores no tienen formación metodológica dado que probablemente recibieron algún curso de estadística durante su formación académica pero eso fue mucho “antes de que ellos realmente apreciaran la importancia de los métodos rigurosos de investigación con el objetivo de hacer buena ciencia” (Altman, 2002, 2766). La formación académica es probable que incluya algún curso de análisis de datos, sin embargo, el estudio del diseño de investigación puede no ser abordado de forma amplia y exhaustiva. El estudio de los diseños y métodos de investigación es fundamental en la formación de los estudiantes y desarrollar la competencia vinculada al pensamiento crítico y meta-analítico es crucial para formar profesionales que puedan evaluar la calidad de los hallazgos que aparecen en los informes de investigación dentro de un contexto concreto de efectos. El movimiento de la Práctica Basada en la Evidencia y sus principios deben incorporarse en los planes de estudio como competencias básicas de los futuros profesionales de las diferentes disciplinas científicas donde se aborda el desarrollo o la lectura de investigaciones empíricas.
En conclusión, los resultados reflejan un aumento progresivo de la estimación del tamaño del efecto junto a los valores p de probabilidad utilizados en las pruebas de significación estadística (36. 2% en la Revista de Educación y 52. 9% en la revista de Psicothema). Sin embargo, sólo el 9. 5 % del total de artículos revisados acompaña el tamaño del efecto con su intervalo de confianza (11. 1% en la Revista de Educación y 9. 1% en la revista de Psicothema). Estimar el intervalo de confianza del tamaño del efecto ayuda a potenciar el pensamiento meta-analítico, proporciona información de la precisión de las estimaciones puntuales y proporciona estimaciones plausibles de los valores de los parámetros. Es muy probable que en la próxima edición del Manual de la American Psychological Association se recomiende con mayor énfasis estimar siempre junto al valor del tamaño del efecto su intervalo de confianza.
Referencias bibliográficas
Altman, D. G. (2002). Poor-quality medical research: What can journals do? JAMA, 287, 2765-2767.
American Educational Research Association (2006). Standards for reporting on empirical social science research in AERA publications. Educational Researcher, 35(6), 33-40.
American Psychological Association (1996). Task Force on Statistical Inference Report. Washington, DC: American Psychological Association.
American Psychological Association (2001). Publication Manual of the American Psychological Association (5th Ed. ). Washington, DC: American Psychological Association.
American Psychological Association (2010). Publication Manual of the American Psychological Association (6th Ed. ). Washington, DC: American Psychological Association.
Breaugh, J. A. (2003). Effect size estimation: Factors to consider and mistakes to avoid. Journal of Management, 29, 79-97
Chalmers, A. F. (1999). The Bayesian approach. In his What is this thing called science? (2nd Ed. ) (p. 174-192). St Lucia: University of Queensland Press.
Cumming, G. & Fidler, F. (2009). Confidence intervals: Better answers to better questions. Journal of Psychology, 217, 15-26.
Cumming, G. & Finch, S. (2001). A primer on the understanding, use, and calculation of confidence intervals that are based on central and noncentral distributions. Educational and Psychological Measurement, 61, 633-649.
Cumming, G. , & Finch, S. (2001). A primer on the understanding, use and calculation of confidence intervals that are based on central and noncentral distributions. Educational and Psychological Measurement, 61, 532-575.
Cumming, G. , & Finch, S. (2005). Inference by eye: Confidence intervals and how to read pictures of data. American Psychologist, 60, 170-180.
Cumming, G. , Fidler, F. , Leonard, M. , Kalinowski, P. , Christiansen, A. , Kleining, A. , Lo, J. , McMenamin, N. , & Wilson, S. (2007). Statistical reform in psychology: Is anything changing? Psychological Science, 18(3), 230-232.
Daniel, L. G. (1998). Statistical significance testing: a historical overview of misuse and misinterpretation with implications for the editorial policies of educational journals. Research in the Schools, 5, 2, 23-32.
Fisher, R. A. (1925). Theory of statistical estimation. Proceedings of the Cambridge Philosophical Society, 22, 700-725.
Frías-Navarro, D. (2011). Técnica estadística y diseño de investigación. Valencia: Palmero Ediciones.
Fritz, A. , Scherndl, T, & Kühberger, A. (2012). A comprehensive review of reporting practices in psychological journals: Are effect sizes really enough? Theory & Psychology. In press
Good, P. I. & Hardin, J. W. (2012). Common errors in statistics (and how to avoid them). Fourth Edition. Hoboken, NJ: John Wiley & Sons.
International Committee of Medical Journal Editors (2006). Uniform Requirements for Manuscripts Submitted to biomedical Journals: Writing and Editing for Biomedical Publication. Disponible en http://www. icmje. org/index. html
International Committee of Medical Journal Editors (ICMJE) advirtió en 1988
Kirk, R. E. (1996). Practical significance: A concept whose time has come. Educational and Psychological Measurement, 56, 746-759.
Kline R. B. (2004). Beyond significance testing: reforming data analysis methods in behavioural research. Washington, DC: American Psychological Association.
Lehmann, E. L. (1993). The Fisher, Neyman-Pearson theories of testing hypotheses: One theory or two? Journal of the American Statistical Association, 88, 1242-1249.
McGuigan S. M. (1995). The use of statistics in the British Journal of Psychiatry. British Journal of Psychiatry, 167, 683-688.
McMillan, J. H. & Foley, J. (2011). Reporting and discussing effect size: still the road less traveled? Practical Assessment, Research & Evaluation, 16, 1-12.
Nasser-Abu (2008). Effect size reporting practices in published articles. Educational and Psychological Measurement, 69, 245-265.
Nickerson, R. S. (2000). Null hypothesis significance testing: a review of an old and continuing controversy. Psychological Methods, 5, 241-301.
Pascual, J. , Frías-Navarro, D. , & García, J. F. (1996). Manual de psicología Experimental. Barcelona: Ariel.
Pascual, J. , Frías-Navarro, D. , & García, J. F. (2000). El procedimiento de significación estadística (NHST): su trayectoria y actualidad. Revista de Historia de la psicología, 21, 9-26.
Pascual-Soler, M. (2011). Introducción al muestreo para la inferencia estadística. En D. Frías-Navarro, Técnica estadística y diseño de investigación. Valencia: Palmero Ediciones.
Sackett, D. L. , Strauss, S. E. , Richardson, W. S. , Rosenberg, W. & Haynes, R. B. (2000). Evidence-based medicine: How to practice and teach EBM (2nd Ed. ). Edinburgh: Churchill Livingstone.
Steiger, J. H. & Fouladi, R. T. (1997). Noncentral interval estimation and the evaluation of statistical models. In ` L. L. Harlow, S. A. Mulaik, & J. H. Steiger (Eds). What if there were no significance tests? Mahwah, N. J. , Lawrence Erlbaum Associates.
Wilkinson, L. , and the Task Force on Statistical Inference. (1999). Statistical methods in psychology journals: Guidelines and explanations. American Psychologist, 54, 594-604.
IMPORTANTE: Algunos textos de esta ficha pueden haber sido generados partir de PDf original, puede sufrir variaciones de maquetación/interlineado, y omitir imágenes/tablas.
DEPRESIÓN, MEMORIA Y PEMOLINA
Jorge Luis Morea
Fecha Publicación: 30/10/2024
"Solo necesito que me aceptes": La salud mental en la adolescencia
Adamed Laboratorios
Fecha Publicación: 24/10/2024
La ética del cuidado
Literariamente: Literatura y salud mental
Fecha Publicación: 22/10/2024
LA DISOCIACIÓN DE LA REALIDAD: CUANDO LA IDENTIDAD DE GENERO DESAFÍA LA BIOLOGÍA
Marco Gavilán García de Vicuña
Fecha Publicación: 05/10/2024
HÉCTOR ABAD FACIOLINCE y MERCEDES NAVÍO.
Literariamente: Literatura y salud mental
Fecha Publicación: 03/10/2024
Proyecto UNATI. Los efectos del alcohol a partir de los 50 años
Adamed Laboratorios
Fecha Publicación: 01/10/2024