PUBLICIDAD
Última actualización web: 18/08/2022

El análisis de datos a través de Internet.

Autor/autores: Alfonso Palmer , A. Rubí, R. Jiménez
Fecha Publicación: 15/06/2010
Área temática: .
Tipo de trabajo: 

RESUMEN

En este artículo se presentan los recursos para el análisis de datos que un investigador puede encontrar en Internet. En primer lugar se presentan ocho recursos básicos que posibilitan la puesta al día en el análisis de datos. A continuación se hace un recorrido por medio de numerosos enlaces a través de temas de fundamentos(probabilidades), del análisis exploratorio y de los modelos de relación entre dos variables, tales como las tablas de contingencia, la comparación de dos medias, el análisis de la variancia y la correlación. Por último se dan enlaces que permiten analizar diseños factoriales y modelos de regresión múltiple.

Palabras clave: Análisis de datos; Recursos en Internet; Modelos de relación.


Para más contenido siga a psiquiatria.com en: Twitter, Facebook y Linkedl.

VOLVER AL INDICE

Url corta de esta página: http://psiqu.com/1-6210

Contenido completo: Texto generado a partir de PDf original o archivos en html procedentes de compilaciones, puede contener errores de maquetación/interlineado, y omitir imágenes/tablas.

REVISTA ELECTRÓNICA DE PSIQUIATRÍA
Vol. 3, No. 2, Junio 1999
ISSN 1137-3148

ARTÍCULO ESPECIAL

El análisis de datos a través de Internet.
A. Palmer, A. Rubí, R. Jiménez.

[Resumen] [Abstract]

Area de Metodología de las Ciencias del
Comportamiento.
Departamento de Psicología.
Universitat de les Illes Balears.(España)

Recursos Básicos
Recursos Para el Análisis de datos

Correspondencia:
E-Mail: dpsapp0@ps.uib.es

En este artículo intentaremos proporcionar una visión, que por supuesto no podrá ser
exhaustiva, de los recursos que un investigador tiene a su alcance en la red, mediante los
cuales puede llevar a cabo tanto el análisis de los datos de su investigación, como el
aprendizaje, puesta al día, etc., de todo aquello relacionado con el análisis de datos.
La ventaja de casi toda la información que incluiremos en este artículo es su gratuidad.
Usted puede acceder a casi todos estos recursos sin tener que pagar por ellos.

Recursos Básicos
A continuación se proporciona información sobre ocho recursos relacionados con el
análisis de datos:
Cursos

Datos

Glosarios Libros

Revistas

Software

Tablas

Tutoriales

Cursos
Internet ofrece la posibilidad de obtener gratuitamente el material utilizado en distintos
cursos de estadística aplicada. Puede encontrar información de este tema en Análisis de
Datos-Cursos.
Por otra parte, a través de Internet se pueden seguir cursos de formación en distintos
ámbitos de la metodología y del análisis de datos. Sin embargo, en este apartado, lo más
habitual es que los cursos que se pueden seguir requieren una matrícula previa. La
ventaja de estos cursos es que el material es mas actual, se tiene la posibilidad de estar
tutorizado on-line y, en general, se realizan evaluaciones que permiten comprobar el
conocimiento adquirido.
Por ejemplo, puede encontrar cursos interesantes, dirigidos a los profesionales en
Ciencias de la Salud, en la Web de la Fundación Kovacs. Asimismo, en la Universidad
Autónoma de Barcelona, se ofrecen Estudios de Postgrado centrados en el marco del

Diseño y estadística en ciencias de la salud.
Datos
En general, al investigador le interesará analizar sus propios datos, pero quizás en
alguna ocasión quisiera disponer de algunos datos apropiados para realizar una actividad
docente, para probar la ejecución de alguna técnica estadística o para realizar pruebas de
un determinado software estadístico. Sea cual sea la necesidad, Internet le permitirá
obtener el conjunto de datos que satisfarán su necesidad. Puede encontrar abundante
información de este tema en Análisis de Datos-Datos.
Glosarios
En el momento de la lectura de algún artículo, es posible que aparezca alguna palabra o
término metodológico o estadístico, cuyo significado desconocemos. La solución a este
problema se encuentra en la consulta de un glosario. Así, por ejemplo si nos
encontramos con el término inglés "Homoscedasticity" bastará consultar este término en
un glosario y se nos aclarará que es equivalente a decir igualdad de variancias.
Pues bien, en Internet tenemos a nuestro alcance un gran número de glosarios que nos
permitirán aclarar todas nuestras dudas conceptuales o terminológicas. Uno de los
últimos glosarios incorporados a Internet es: Howard S. Hoffman (1998). Internet
Glossary of Statistical Terms, que puede encontrar en el siguiente enlace: glosario de
Hoffman
Puede encontrar abundante información de este tema en Análisis de Datos-Glosarios.
Libros
Un elemento fundamental, previo al análisis de datos, es la correcta conceptualización
de las pruebas estadísticas que se tienen que aplicar. Para ello, es fundamental disponer
de abundante información escrita sobre las bases estadísticas, las pruebas de hipótesis, la
modelización estadística, etc.
Internet ofrece, en este sentido, dos vías muy importantes. En primer lugar existen un
buen número de libros electrónicos disponibles on-line que pueden ser "bajados" y
puestos en nuestro ordenador. Puede encontrar abundante información de este tema en
Análisis de Datos-Libros.
Pero por otra parte, y no menos importante, existen librerías que nos permitirán adquirir
el libro que necesitemos en un plazo de tiempo que puede ir, en función de nuestras
necesidades, desde un día a dos meses.
En este sentido es fundamental conocer la mayor librería disponible en Internet:
Amazon, con tres millones de ejemplares, que se encuentra en los Estados Unidos,
mientras que en nuestro país podemos buscar en Libroweb.
Revistas
Vale la pena comentar que diversos autores han preconizado la muerte de las revistas
impresas y su sustitución por las revistas publicadas en hipertexto. Así, LaPorte R.E.,
Marler E., Akazawa S., Sauer F., Gamboa C., Shenton C., Glosser C., Villaseñor A. y
Maclure M. (1995) publicaron un artículo titulado The death of biomedical journals en
el British Medical Journal, en el que informan de las ventajas de la publicación on-line

sobre la publicación impresa. En otra muestra de lo dicho, Libman, I. y Acosta, B.
(1996), en su artículo Los científicos asesinan las publicaciones biomédicas, definen el
término publicidio ("Journalcide") como "la destrucción sistemática y deliberada de las
revistas impresas", a las que les dan un máximo de 5 años de vida. Parece ser una
perspectiva bastante pesimista y no muy realista a la vista de que en 1999 las revistas
impresas siguen teniendo vigencia. Sin embargo, queda claro el auge de las revistas online, tal como la que está usted leyendo.
En este sentido existen ya numerosas revistas que se publican exclusivamente on-line
dedicadas al tema que aquí nos ocupa, como por ejemplo las siguientes:
Electronic Communications in Probability
Electronic Journal of Probability
SAIM: Probability and Statistics
InterStat- Statistics on the Internet
Journal of Applied Statistical Reasoning
Journal of Statistical Software
Journal of Statistics Education
Software
Es evidente que hoy en día el análisis de datos se debe realizar por medio de alguno de
los muchos paquetes o programas estadísticos disponibles. Entre ellos, sin duda dos de
los más extendidos son el SAS y el SPSS. Sin embargo existen otros muy buenos
programas, entre los que podríamos citar el BMDP, el S-Plus o el Statistica. Sin
embargo, en general el usuario de estos programas no utiliza todo el potencial que estos
le ofrecen, y sus análisis se centran en una serie concreta de técnicas. Internet pone a
nuestro alcance distintos programas que podemos "bajar" y utilizarlos sin coste alguno
(Freeware), mientras que otros los podremos utilizar durante un tiempo de evaluación y
después decidir si se paga por ellos o no (Shareware). En general el precio de
adquisición de estos programas suele ser bastante bajo.
Puede encontrar abundante información de este tema en Análisis de Datos-Software.
Tablas estadísticas
Las tablas estadísticas impresas han servido durante mucho tiempo para facilitar al
investigador el cálculo del valor criterio para decidir si se mantiene la hipótesis nula de
una prueba de hipótesis o bien se puede aceptar la hipótesis alternativa. Posteriormente,
los paquetes estadísticos han proporcionado de forma más precisa el grado de
significación del resultado obtenido en la prueba estadística así como han ofrecido la
posibilidad de realizar cálculos de probabilidad bajo diferentes distribuciones. El precio
para realizar estos cálculos es el valor del paquete estadístico, a veces un precio
demasiado alto. Hoy en día, Internet proporciona múltiples enlaces en los que se puede
obtener la probabilidad bajo cualquiera de las distribuciones habituales en el análisis de
datos. Información sobre las distribuciones de probabilidad puede encontrarla en los dos
artículos siguientes:

Tablas de estadística en Internet I: Cálculo de probabilidades en las distribuciones comunes en el
análisis de datos.

Tablas de estadística en Internet II: Cálculo de probabilidades para un conjunto de distribuciones
utilizadas en Estadística.

Tutoriales
Los tutoriales explican brevemente el uso e interpretación de técnicas de análisis
estadísticos estándar.
Si usted necesita realizar un determinado análisis descriptivo o de relación entre dos o
más variables y no está seguro de qué índice estadístico es el más apropiado para
describir a una variable (estadística descriptiva) o qué prueba estadística es la más
apropiada para estudiar la relación entre dos variables (estadística bivariante) o entre un
conjunto mayor de variables (estadística multivariante), puede acudir a la siguiente
dirección de Bill Trochim donde en el apartado Selecting Statistics le orientará al tipo de
índice o tipo de prueba estadística que debe utilizar, respondiendo a una serie
encadenada de preguntas que se le van formulando. Así, por ejemplo, si su problema se
refiere a una sola variable, su descripción dependerá de la escala de medida de dicha
variable. Si su problema es una relación bivariante se podrá distinguir entre seis modelos
de relación, en función asimismo de la escala de medida de cada una de las dos
variables, a saber:







Ambas variables de intervalo
Ambas variables nominales
Ambas variables ordinales
Una de intervalo y otra nominal
Una de intervalo y otra ordinal
Una nominal y otra ordinal

Si tiene planteada una relación multivariante podrá obtener el modelo estadístico
adecuado en función de si se distingue o no entre variable dependiente e independiente,
si hay más de una variable dependiente y/o más de una variable independiente, si la
relación es aditiva o no, si las variables son de intervalo o no, si la relación es lineal o
no, si hay alguna variable interviniente o no y si hay alguna variable latente o no.
Así pues, por ejemplo, si se distingue entre variable dependiente e independientes, si hay
una variable dependiente y más de una variable independiente, si no hay variables
concomitantes, si la relación entre las variables es aditiva, si la variable dependiente es
de intervalo, y todas las variables independientes son de intervalo, si las relaciones son
lineales, si no hay variables intervinientes y se quiere una medida de la relación entre la
variable dependiente y todas las variables independientes tomadas conjuntamente,
entonces el modelo que se debe utilizar es el modelo de regresión múltiple.
Puede encontrar abundante información de este tema en Análisis de Datos-Tutoriales.

Recursos para el análisis de datos
Podemos distinguir, a efectos de aclarar ideas, los siguientes bloques en el marco del
Análisis de Datos:
Fundamentos

Análisis descriptivo y Modelos de relación

Modelos de relación

exploratorio

bivariante

multivariante

Fundamentos
Entendemos por fundamentos para el análisis de datos, aquellos elementos conceptuales
que configuran la estructura básica sobre la que se asientan las Pruebas de Hipótesis
encaminadas a verificar, a través de datos muestrales, determinadas hipótesis sobre
parámetros poblacionales.
En este sentido podemos hablar1 de tres pilares en esta construcción, a saber: La teoría
de la probabilidad, las variables aleatorias y la teoría de la estimación.
La Teoría de la Probabilidad determina los axiomas que se deben cumplir para poder
establecer la probabilidad de un suceso, así como los teoremas fundamentales que rigen
los fenómenos estocásticos, es decir en aquellos en los que existe incertidumbre sobre el
resultado que se va a obtener en una experiencia.
En segundo lugar, el concepto de variable aleatoria, sus propiedades, las distribuciones
discretas y continuas y la relación existente entre ellas, constituye el segundo pilar del
trípode, al definir de forma precisa el comportamiento de una variable bajo
determinadas condiciones, proporcionando el modelo que seguirá esta variable y
permitiendo obtener, la probabilidad asociada a cada valor de la variable discreta o la
probabilidad acumulada en el caso de una variable continua. Si se quiere tener el
concepto de variable, así como una clasificación de las variables en numéricas y
categóricas, con ejemplos de cada tipo, lo puede encontrar en el siguiente enlace Tipos
de variables (Eberly College of Arts and Sciences. Department of Statistics). Se incluye
también un ejercicio donde el usuario debe identificar los tipos de variables que se le
presentan. Para conocer las distribuciones de variable aleatorias puede consultar los dos
artículos citados anteriormente en el apartado de tablas estadísticas.
Por último, la teoría de la estimación proporciona las propiedades que debe cumplir un
estadístico para ser un estimador puntual de un parámetro, así como los métodos de
estimación . Por otra parte, permite definir la estimación por intervalo a través del
intervalo de confianza que constituye una herramienta clave en el análisis de datos. No
nos extendemos en este apartado ya que en un próximo artículo abordaremos este tema.
Teoría de la Probabilidad
Seguidamente, presentamos una serie de sitios de Internet, en los que el usuario puede
obtener diferentes aplicaciones relacionadas con el tema de la teoría de la probabilidad.
Probabilidad condicional. Rensselaer Polytechnic Institute. Se trata de un módulo sobre
la probabilidad condicional, que incluye una explicación sobre los conceptos básicos de
la misma, un ejemplo, y una aplicación interactiva. Presenta links a través de los que se
puede enlazar con aspectos relacionados con el teorema de Bayes. Para obtener el
cálculo de las probabilidades bajo la fórmula de Bayes, puede visitar el siguiente sitio:
Teorema de Bayes. (John C. Pezzullo), en el que además de un calculador, se incluye
también una explicación teórica del teorema de Bayes.
A continuación mostramos el calculador que aparece en este último enlace, en el que se
han introducido datos de ejemplo:

Suponiendo que una mujer es la hija de un portador de hemofilia, es conocido que hay
una probabilidad del 50% de que ésta sea portadora y un 50% de que no lo sea, que
corresponde con las probabilidades "a priori" (Prior Probabilities). Y si esta mujer tiene
un hijo, sabemos que existe una probabilidad condicionada del 50% de que éste sea
normal si su madre es portadora y un 50% de que sea hemofílico en el mismo caso. Por
otro lado, la probabilidad condicionada de que el hijo sea hemofílico sabiendo que su
madre no es portadora es del 0%, y, al contrario, existe una probabilidad del 100% de
ser normal sabiendo que su madre no es portadora.
Bajo estas condiciones, se ha calculado la probabilidad "a posteriori" (Revised Prob) de
que esta mujer sea portadora de hemofilia sabiendo que su progenitor es normal (0.333)
y la probabilidad "a posteriori" de que esta mujer no sea portadora en el mismo caso
(0.667).
Si se quisiera estudiar que probabilidades a "posteriori" existirían en el caso de que el
hijo fuera hemofílico se debería marcar la casilla de verificación correspondiente al
resultado Hemofílico y desmarcar la casilla correspondiente al resultado Normal, y
pulsar a continuación el botón `Compute'. Comprobaría que existe una probabilidad del
100% de que esta mujer sea portadora de hemofilia sabiendo que su hijo es hemofílico.
Otra aplicación interesante es la siguiente: Probability Calculator (Probability
Calculator: Library of Entries). Es una aplicación diseñada para encontrar la
probabilidad de que ocurran dos sucesos diferentes, P(A+B), o de que ocurra sólo uno
de ellos, P(A o B). El usuario introduce la probabilidad asociada a cada evento (en
formato de fracción), y la aplicación obtiene la probabilidad de que ocurra uno o los dos
eventos, según sean mutuamente excluyentes o no, expresada en formato fracción.
Cuando se enlaza aparece una página con la siguiente calculadora:















Se debe introducir la probabilidad de los dos eventos A y B en los campos
correspondientes, en formato fracción.
La probabilidad del evento A debe ser introducida en los dos campos de texto de
color rosa de la parte izquierda, con el numerador en el campo de arriba y el
denominador en el campo de abajo.
La probabilidad del evento B debe introducirse de la misma manera en los dos
campos de la derecha
Pulsar P(A+B) para encontrar la probabilidad de que ocurra el evento A y B a la
vez.
Pulsar P(A or B) para encontrar la probabilidad de que ocurra el evento A o el
evento B.
En el caso de elegir la opción P(A or B), si los dos eventos son mutuamente
excluyentes se debe seleccionar el botón ME(disjoint) y comprobar que la suma
de las dos probabilidades no exceda de 1. En caso de que no sean mutuamente
excluyentes, seleccionar el botón NME(joint).
Los dos campos azules representan el resultado en formato fracción (el de arriba
es el numerador y el de abajo el denominador).

Otro tema relacionado con la Probabilidad es el de las permutaciones y combinaciones.
Sin entrar en un análisis de estos conceptos, que puede hallarse en Palmer1, aquí le
proporcionamos algunos enlaces, que permiten realizar diversas funciones ligadas al
tema:
Object Server. Amplio conjunto de aplicaciones sobre combinatoria, permutaciones y
probabilidad. Object Server, Frank Ruskey.
Generación de n permutaciones de k elementos. El usuario debe determinar n (nº de
permutaciones) y k (nº de elementos). Jan de Leeuw. UCLA Statistics.

Análisis descriptivo y exploratorio
El primer paso para el análisis de datos debe consistir en un estudio pormenorizado del
comportamiento de cada una de las variables que intervienen en la investigación. Para
ello se disponen de herramientas numéricas y gráficas que permitirán extraer toda la
información precisa para este análisis.

En general, la manera de realizar dicho análisis consistía en la aplicación de índices
estadísticos tales como la media y la variancia. Es sabido que estos índices son poco
resistentes a la presencia de valores alejados, en cuyo caso los índices exploratorios
propios del "Exploratory Data Analysis"2, 3 proporcionan una información más exacta
del comportamiento en este tipo de distribuciones.
Índices descriptivos clásicos
La media aritmética es el índice de tendencia central por excelencia. Puede obtenerse en
la siguiente dirección: Cálculo de la media aritmética (John T. Behrens, Arizona State
University), explicando los pasos sucesivos para la obtención de la misma.
Los datos se han de introducir en fila y separados por un espacio. Una vez introducidos,
pulsar el botón 'AVERAGE THESE!!', acción que llevará a una nueva página en la que
se explica de forma exhaustiva los pasos seguidos hasta la obtención de la media.
La variancia de una distribución nos indica el grado de dispersión que presentan las
observaciones respecto a la media. Puede obtenerse en el siguiente enlace:
Calculador de la variancia muestral (denominador=n-1). John T. Behrens, Arizona State
University. Se desglosan todos los pasos necesarios en el cálculo, hasta obtener el
resultado final. Presenta el mismo formato que la aplicación anterior.
La desviación estándar es otro índice de variabilidad o dispersión (es la raíz cuadrada de
la variancia) que usted puede obtener, en la dirección calculador de la desviación
estándar muestral (John T. Behrens, Arizona State University), con un formato idéntico
al de las aplicaciones anteriores.
También dentro de la misma colección de calculadores, se halla uno para obtener el
índice de la mediana, un índice de posición que divide a la distribución en dos partes
iguales, de forma que deja un 50% de la misma por debajo, y un 50% por encima.
Calculador de la mediana. John T. Behrens, Arizona State University.
Representaciones gráficas
Una de las representaciones clásicas de una variable cuantitativa es el histograma. En el
siguiente enlace se puede proceder a la construcción de un histograma, a partir de unos
parámetros indicados que definen el gráfico y de unos datos que pueden introducirse o
importarse. Permite también ajustar la amplitud de los intervalos. Jan de Leeuw, UCLA
Statistics.
Al enlazar, aparece el siguiente cuadro en el que se pueden definir los parámetros
(amplitud de los intervalos) y las dimensiones (horizontales y verticales) que definen el
histograma:

Una vez introducidos los parámetros y dimensiones, pulsar el botón Submit

Parameters, acción que nos llevará al siguiente cuadro de diálogo:

En este cuadro se solicita la introducción de la serie de datos que vamos a utilizar en la
creación del histograma, ya sea introduciéndolos manualmente a través del campo Input
Data, importando el archivo de datos ubicado en una unidad específica de nuestro
ordenador (a través del botón Examinar...), o bien, indicando una dirección URL en la
que se encuentre ubicado dicho archivo de datos. Una vez elegido el procedimiento,
pulsar el botón Send me! (en los dos primeros procedimientos) o Get me! en el caso de
haber especificado una dirección URL.
Si establecemos, a modo de ejemplo, la amplitud de intervalo del histograma a 1 (en el
campo Binwidth) e introducimos los siguientes datos (uno debajo de otro) :
23 27 26 28 25 27 26 28 27 26 23 28 25 28 30 23 30 22 21 28
obtendríamos el siguiente resultado:

Índices exploratorios
El Análisis Exploratorio de Datos (EDA), representa una forma de descripción y
representación de los datos, y posee algunas ventajas sobre los índices clásicos. El EDA

da más importancia a los índices de localización y variabilidad resistentes, es decir, que
no son sensibles a la presencia de valores anómalos en el conjunto de datos; trabaja con
los datos originales más que con sus resúmenes, y en cualquier caso, utiliza
especialmente los resúmenes visuales, más que los numéricos.
Dentro del análisis exploratorio de datos3, las dos formas de representación gráfica más
utilizadas son el gráfico de tallo y hojas o 'Stem and leaf', y el gráfico de caja o 'boxplot'.
El 'Stem and leaf' representa las distribuciones dividiéndolas en dos partes, una más
significativa que la otra, conservando los datos originales, y representando bien la forma
de la distribución. Proporciona en definitiva, mayor información que el clásico
histograma. Usted puede obtener este gráfico en la dirección: Cálculo del "Stem and
leaf" (David Lane. HyperStat OnLine), que además proporciona también diversos
estadísticos descriptivos y exploratorios, entre ellos: la Trimean, los índices de asimetría
y apuntamiento, la amplitud semi-intercuartil, los percentiles 25 y 75 y la media
recortada al 50%..
La página que aparece al acceder a dicha dirección solicita la introducción de los datos
en un campo de texto. Se debe especificar la forma de introducción de los diferentes
datos, separados por un espacio (por defecto), separados por la tecla Return o cada dato
en una nueva línea, y, como última opción, separados por tabulaciones.
Imaginemos que queremos introducir los siguientes datos, con la opción Space
seleccionada:
8 10 10 11 11 11 11 12 13 15 16 16 16 17 18 19 20 21 21 23 24 25 27 28 33 35 39 41
Una vez introducidos, pulsamos el botón Compute, acción que abrirá una nueva página
en la que se mostrará los siguientes resultados:

El box-plot permite representar la parte central de la distribución y los extremos de la
misma, así como visualizar la existencia de valores alejados. Puede obtenerse en la
siguiente página:

Construcción del gráfico Box-Plot para una muestra. Jan de Leeuw, UCLA Statistics.

Al enlazar, aparece el siguiente cuadro en el que se pueden definir los parámetros
(amplitud de los intervalos) que definen el Box-Plot (gráfico de caja):
#Una vez introducidos los parámetros, hay que pulsar el botón Submit Parameters,
acción que nos llevará a un cuadro de diálogo en el que deben introducirse los datos o
bien importar un archivo de datos existente.
Si introducimos los siguientes datos (uno debajo de otro) :
8 10 10 11 11 11 11 12 13 15 16 16 16 17 18 19 20 21 21 23 24 25 27 28 33 35 39 41
obtendríamos el siguiente resultado:

Si desea construir el gráfico de caja para varias muestras a la vez, visite esta dirección:
Construcción del gráfico de caja para múltiples muestras. Jan de Leeuw, UCLA
Statistics.
La página que nos aparece cuando contactamos con esta dirección informa acerca del
procedimiento a seguir para la introducción de los datos en el campo de texto que
aparece, o bien, para la lectura de un fichero que ya tenga almacenados los datos en el
formato especificado.
Concretamente, los datos se han de introducir con el siguiente formato:
23 1
16 2
30 2
11 1
donde el primer número de cada fila representa un dato y el segundo el número de
muestra al que pertenece.
Una vez introducidos, pulsar el botón Plot me!.
Para que lea directamente los datos almacenados en un archivo de texto externo hemos
de indicar la ubicación de dicho archivo a través del botón Examinar... (figura
siguiente). Finalmente, pulsar el botón Plot me!.

Si introducimos los siguientes datos :
Muestra 1: 8 10 10 11 11 11 11 12 13 15 16 16 16 17 18 19 27 28 39
Muestra 2: 7 8 8 11 13 13 14 14 14 14 16 16 16 18 18 19 20 21 29
obtendríamos el siguiente resultado:

En el gráfico pueden verse los dos gráficos de caja, correspondientes a las dos muestras
de valores introducidas, así como los cinco valores que definen el denominado Tukey
display.

Modelos de la Relación Bivariante
Una vez superada la etapa exploratoria de los datos, en general el investigador estará
interesado en analizar la posible existencia de relación entre variables. El modelo de
análisis a seguir dependerá del tipo de variables que se relacionen. Los tipos de análisis
bivariante en los que profundizaremos en este artículo son los siguientes:
Tablas de contingencia bivariantes
Comparación de dos medias
Correlación lineal
Análisis de la Variancia Unifactorial
Regresión Simple

Tablas de contingencia.
El análisis de tablas de contingencia bivariantes se realiza cuando estudiamos la relación
entre dos variables cualitativas. Cuando trabajamos con variables cualitativas,
clasificamos a los miembros de una población según la categoría a la que pertenecen en
esas determinadas variables (estado civil, sexo, tipo de tratamiento recibido, etc.)
tomándose como dato de estudio las frecuencias en cada una de estas categorías.
Cuando la población se clasifica teniendo en cuenta las dos variables de forma
simultánea, se obtiene una tabla de contingencia bivariante con r x c categorías, donde r
es el número de categorías de una variable, que se disponen como filas y c es el número
de categorías de la otra variable, que se disponen como columnas. El objetivo es analizar

la relación existente entre ambas variables.

Comparación de proporciones:
Relacionado con este tema y como aspecto previo se encuentra la comparación de
proporciones. Las siguientes direcciones permiten realizar algunos cálculos de utilidad
al respecto:
Binomial probability calculator. Richard Lowry. VassarStats. En esta dirección se
explica brevemente la distribución binomial. El calculador nos permite obtener la
probabilidad binomial de un valor, así como las probabilidades acumuladas por encima
y por debajo de él. De este modo se puede resolver de forma exacta, la prueba de
conformidad para proporciones.
En el siguiente cuadro de diálogo, que aparece en la página, hay que introducir n
(tamaño muestral), r (nº de individuos que reúnen la característica en cuestión) y p (la
probabilidad de la característica en la población). La aplicación devuelve la probabilidad
de encontrarnos esta proporción en una muestra procedente de la población de origen. Si
esta probabilidad es menor que 0.05 rechazaremos la hipótesis nula, luego rechazaremos
que la muestra provenga de una población caracterizada por la proporción p.

Podemos comparar dos proporciones en grupos independientes, utilizando la siguiente
dirección: Calculador de la comparación de dos proporciones, a partir de la
aproximación normal. IFA Services. Institut of Phonetic Sciences. Faculty of the
Humanities. University of Amsterdam.
Hay que introducir, tal como se muestra en el siguiente cuadro, las proporciones de
ambos grupos, como X/N, y se obtiene la significación de la prueba.

Prueba de conformidad
Para determinar si la población de origen de una muestra presenta determinado patrón,
es decir, si las proporciones halladas en la muestra para cada categoría se ajustan a lo
esperado de acuerdo con un determinado modelo teórico, se plantea una prueba de
conformidad, donde la variable tiene k categorías y por tanto se tienen k proporciones.
La siguiente dirección permite este cálculo en una repartición observada: Prueba de
conformidad, Ji cuadrado, para determinar la bondad de ajuste T. Kirkman. En esta
dirección se proporciona una explicación del significado y funcionamiento de la prueba
de conformidad. Para acceder a la aplicación propiamente dicha hay que hacer clic sobre
el link 'Click here to calculate X2', y posteriormente se pide cuantas categorías (k) se
tienen en la repartición. Una vez hecho esto, hay que definir las frecuencias observadas
(Xi) y las esperadas según el modelo teórico (Ei) en el siguiente recuadro y apretar el
botón Calculate Now:

La aplicación nos proporciona el valor del test Ji-Cuadrado y su significación.

La siguiente dirección realiza el cálculo cuando se desea averiguar si las frecuencias
halladas en varias muestras (varias reparticiones observadas) se ajustan al modelo
teórico en cuestión: Prueba ji-cuadrado para evaluar múltiples distribuciones. IFA
Services. Institut of Phonetic Sciences. Faculty of the Humanities. University of
Amsterdam. Este 'applet' comprueba si todas las muestras, situadas en el recuadro como
filas, tienen la misma distribución de frecuencias para las categorías (columnas).
Devuelve directamente el valor de la prueba (sin aplicar la corrección de continuidad),
con sus grados de libertad y ofrece la posibilidad de estudiar la significación del valor
mediante un enlace a la tabla de la distribución Ji-Cuadrado.
Prueba de independencia
Mediante la prueba de independencia analizamos si las dos variables que forman una
tabla de contingencia (las categorías de una variable se sitúan como filas y las de la otra
variable como columnas) son independientes o están relacionadas.
A continuación presentamos una aplicación que nos permite realizar este cálculo para
tablas de orden hasta 9x9: Calculo en tablas rxc. T. Kirkman. En una primera pantalla
hay que especificar el número de filas y columnas de nuestra tabla, para posteriormente
entrar las frecuencias de cada categoría en una tabla con el siguiente formato:

La aplicación halla las frecuencias esperadas con el valor del test Ji-cuadrado con sus
correspondientes grados de libertad y su significación.
Cuando la tabla es de orden 2x2, pueden calcularse ciertos índices específicos, y si la
muestra no es grande (cuando las frecuencias esperadas sean inferiores a 5) es
interesante aplicar la corrección de continuidad. En la siguiente dirección puede
obtenerse el valor de la prueba de independencia con la corrección por continuidad

además del odds ratio, el riesgo relativo y un análisis de la efectividad de un criterio
diagnóstico bajo ciertas condiciones: Tablas 2x2, con corrección por continuidad. John
Pezzullo. Interactive Statistics
Mediante la prueba exacta de Fisher, accesible a través del siguiente link: Fisher's Exact
Probability Test (Richard Lowry. VassarStats), puede obtenerse la probabilidad exacta
asociada a una distribución de frecuencias 2x2. La dirección que se facilita proporciona
una explicación de la lógica del test de Fisher, así como un calculador de su
probabilidad unilateral y bilateral. Hay que introducir directamente las frecuencias en
formato tabla, y la aplicación halla la probabilidad exacta para una prueba uni (one-tail)
y bilateral (two-tail).

Cuando trabajemos en un contexto de medidas repetidas, y estemos interesados en
comprobar, por ejemplo, cuál es el tratamiento más eficaz de los dos aplicados a los
mismos sujetos, podrá aplicarse la prueba de McNemar, que puede realizarse desde la
siguiente aplicación: Prueba de McNemar (IFA Services. Institut of Phonetic Sciences.
Faculty of the Humanities. University of Amsterdam), que explica la prueba, sus
características, sus aproximaciones, y permite realizar su cálculo. En la tabla siguiente, y
si desarrollásemos nuestro ejemplo, AA y BB serían los sujetos que no han variado su
respuesta según el tratamiento (ambos producen efectos negativos o positivos) y las
categorías BA y AB recogerían los sujetos que con el tratamiento A obtuvieron
resultados positivos y negativos con el B o viceversa. Véase que la aplicación
proporciona la probabilidad de encontrar este tipo de distribución, si sólo actuase el
azar.

Índices de asociación.

Si deseamos saber el grado de asociación existente entre las variables que forman la
tabla de contingencia, la prueba de independencia no nos proporciona esta información.
Se dispone no obstante de una amplia colección de índices de asociación, algunos de los
cuales son accesibles a través de las siguiente direcciones:
Pruebas de independencia y medidas de asociación en tablas 2x2. Esta dirección permite
obtener para una tabla 2x2, la prueba de independencia de Pearson, el "likelihood ratio"
y el coeficiente de Mantel Haenszel. Además proporciona las siguientes medidas de
asociación: el "risk ratio", el odds ratio, con su S.E., el log-odds, los índice Q e Y de
Yule con sus respectivos S.E., y el coeficiente de correlacion de Pearson y el phi
cuadrado. Simple Interactive Statistical Analysis.
A modo orientativo se proporciona un ejemplo de los cálculos que se realizan en esta
dirección:

Calculador de los índices basados en la concordancia y discordancia para tablas con
variables ordenadas, para una tabla de 5x5 como máximo (John Pezzullo). Halla el
número de parejas discordantes y concordantes, el índice Gamma de Goodman y
Kruskal, el tau-b de Kendall, la d de Sommers y las observaciones empatadas en X y en
Y..
A continuación se presentan las salidas del 'applet' en relación a estos índices:

Para una descripción exhaustiva de estos índices puede consultar a Palmer4.

Comparación de dos medias
Es bastante frecuente plantear estudios experimentales en los que nos interese estudiar la
relación entre una variable controlada o manipulada por el investigador, de naturaleza
cualitativa y una variable de respuesta aleatoria. Cuando la variable controlada o factor
tiene dos niveles, es decir toma dos valores (por ejemplo dos tipos de tratamiento, A y
B) el tipo de análisis que permite averiguar si la respuesta del sujeto depende del nivel
del factor se denomina comparación de dos medias. Asimismo, este análisis puede
aplicarse a estudios no experimentales donde el factor sea una variable no controlada,
como por ejemplo la variable sexo.
Dentro de este contexto, si estamos interesados en analizar si la media que se ha hallado
en una muestra se ajusta a la media poblacional definida por un determinado modelo
teórico, realizaremos lo que se conoce como prueba de conformidad. En Internet,
podemos hallar aplicaciones para resolver este problema.
La siguiente dirección obtiene la prueba de conformidad para una media (Arizona State
University. College of Education) aplicando la t de Student (t -test). Halla el valor del ttest y a partir del mismo ofrece una conclusión estadística, con un nivel de significación
del 5%. Trabaja con datos resumidos, y por tanto se deben introducir la media muestral
y la teórica, la desviación estándar y el tamaño muestral.
Otro modo de resolver la cuestión planteada en una prueba de conformidad es a través
de los intervalos de confianza. La siguiente dirección Cálculo del intervalo de confianza
(Arizona State University. College of Education) obtiene el intervalo de confianza para
una media, calculando el desvío con una Z o una t en función del tamaño muestral. Se
asume que la variancia poblacional es desconocida. Trabaja con datos resumidos
(media, D.E., y tamaño muestral). Si el valor de la media poblacional está contenido en
el intervalo de confianza, se puede aceptar que la muestra procede de una población que
presenta una media igual a la del modelo teórico en cuestión.
Muy relacionado con lo anterior, en cuanto es un elemento central en las pruebas de
hipótesis, se encuentra el concepto de potencia. La potencia de una prueba es la

capacidad de la misma para detectar una hipótesis alternativa cuando la hipótesis nula es
falsa (ver Palmer, 1995 para una explicación más profunda del concepto). En Colección
de calculadores de la potencia (Jason Bond, UCLA Statistics), pueden encontrarse los
cálculos de la potencia para distintas pruebas, situaciones, y bajo diferentes
distribuciones.
Comparación de dos medias en grupos independientes
Cuando el investigador esté interesado en comparar las medias de dos grupos de sujetos
distintos para una misma variable respuesta, existen en la red numerosos calculadores
que permiten realizar esta operación. Uno de los más interesantes, a nuestro juicio, es el
siguiente: Prueba de comparación de dos medias (Statistical Solutions Inc.).
Previamente analiza el supuesto de homogeneidad de variancias, y según su
cumplimiento realiza el t-test asumiendo variancias iguales o distintas.

Hay que introducir los datos resumidos, tal como se requiere en el cuadro de diálogo que
se abre al visitar la página:

Este es el output que ofrece la aplicación, que como puede verse realiza la prueba de
homogeneidad de variancias y devuelve el valor de la prueba de comparación de medias
tanto para el caso en que las variancias sean homogéneas como para cuando sean
heterogéneas:

La comparación de dos medias puede resolverse a través del Intervalo de confianza para
la variable diferencia de dos medias (Arizona State University), dadas las medias, SD y
tamaño de cada grupo. Si el 0 está contenido en el intervalo de confianza, se asume que

no hay diferencias entre los dos grupos. Si no lo está, se acepta la hipótesis de que sí
existen diferencias. No contempla el incumplimiento de la homogeneidad de variancias
a la hora de obtener el error estándar para hallar el intervalo de confianza..
La siguiente aplicación, Cálculo de la potencia y del tamaño muestral, conocidos el
valor de las medias muestrales, de las variancias poblacionales (iguales) y el nivel de
significación, calcula el tamaño muestral necesario para cada muestra, con tamaños
iguales para que la prueba tenga una potencia determinada, o bien la potencia de la
prueba, para un tamaño muestral determinado, siendo los tamaños de ambos grupos
iguales. Rollin Brant. University of Calgary.
Comparación de dos medias en medidas repetidas
Cuando evaluamos al mismo grupo de sujetos, bajo dos condiciones distintas (por
ejemplo, aplicamos a los mismos sujetos dos tipos de tratamiento), nos movemos en un
contexto de medidas repetidas. Para estudiar si existen diferencias entre las medias de
los sujetos bajo una y otra condición, disponemos del 'applet' T test para muestras
relacionadas (VassarStats). Hay que introducir previamente el número de sujetos, y
después introducir los datos originales, donde Xa corresponden a las puntuaciones de los
sujetos bajo la primera condición experimental o medida, y Xb bajo la segunda medida
o condición experimental:

Una vez introducidos los datos (en este ejemplo para 5 sujetos), al hacer clic sobre el
botón Calculate, obtiene una serie de estadísticos descriptivos,

donde d es la variable diferencia resultado de restar las puntuaciones para cada sujeto en
b y a (d=b-a).

También halla la diferencia de las medias y el estadístico t, con sus grados de libertad,
así como los valores críticos de la distribución t de Student a unos niveles de
significación.
El siguiente enlace permite acceder a una dirección en la que puede encontrarse un
calculador de carácter más o menos global para dos muestras: Calculador para dos
muestras (UCLA Statistics): permite realizar pruebas de hipótesis (unilaterales y
bilaterales) para grupos independientes (debe ser el usuario quien decide si realiza el ttest asumiendo variancias iguales o distintas, en cuyo caso el applet obtiene la
aproximación de Welch) y medidas repetidas.
Hay que introducir los datos individuales (pueden teclearse o importarse de otros
archivos); posteriormente, en el siguiente cuadro de diálogo se elige la opción de
análisis que se desee, y se hace clic sobre el botón Submit:

Como puede observarse el 'applet' permite realizar la comparación de dos medias en
grupos independientes (Independent Samples) y medidas repetidas (Paired Samples),
para pruebas de hipótesis uni y bilaterales.
Si se elige comparación de grupos independientes (con la opción seleccionada en el
recuadro), por defecto realiza la comparación asumiendo que las variancias
poblacionales son distintas y realizando la aproximación de Welch para los grados de
libertad con los que contrastar el valor del t-test. Si por el contrario se sabe que las
variancias son iguales, se puede seleccionar la opción Look Up en el recuadro
correspondiente bajo Equal Variance. Así pues, la opción Equal Variance no implica la
obtención de la prueba de homogeneidad de variancias, sino que se indica a la
aplicación que asuma variancias iguales.
Seleccionando Paired Samples realiza la comparación de medias en medidas repetidas.

Pruebas no paramétricas
El conjunto de pruebas que hemos venido comentando hasta ahora, se denominan
paramétricas, y necesitan que se verifiquen ciertos supuestos para poder ser aplicadas
(para una revisión, ver por ejemplo, Palmer, 1995c). Cuando estos supuestos no se
verifiquen pueden aplicarse otro tipo de pruebas que no necesitan de estos requisitos.
Son las llamadas pruebas no paramétricas.
Para realizar 'on-line' la prueba U de Mann Whitney, que permite comparar dos medias
de grupos independientes, se puede visitar: U de Mann-Whitney (Richard Lowry.
VassarStats). Cuando se inicia la aplicación se solicita el tamaño de la muestra A y el de
la muestra B. Deben introducirse directamente los rangos (orden de cada observación
después de ordenar las n observaciones de ambos grupos conjuntamente), y no las
puntuaciones originales. Halla el valor del test U, pero no su significación, con lo cual
hay que consultar unas tablas de los valores críticos de la prueba. Obtiene la
aproximación a la normal (z) si el tamaño muestral es mayor que 20, pero no para una n
menor de 21, y en este caso ofrece su significación.
Prueba de la Mediana para dos muestras. Institute of Phonetic Sciences. Faculty of the
Humanities. University of Amsterdam. Esta prueba tiene el mismo objetivo que la
anterior. En esta dirección se proporciona una introducción teórica a la misma, y se
permite además su cálculo. Deben introducirse los datos originales, y la aplicación
obtiene la mediana y la significación de la prueba (que nos dice si los grupos pueden
provenir de la misma población).
Si deseamos realizar la comparación de dos medias, en medidas repetidas, a través de la
vía no paramétrica, podemos utilizar o bien la Prueba T de Wilcoxon (Institute of
Phonetic Sciences. Faculty of the Humanities. University of Amsterdam), o bien el Test
del Signo (Institute of Phonetic Sciences. Faculty of the Humanities. University of
Amsterdam) para medidas repetidas.

En la prueba T de Wilcoxon, hay que introducir los datos originales para cada medida
(cada medida se sitúa en una columna), y se obtienen la suma de rangos
correspondientes a diferencias positivas y negativas, y la significación de la prueba. No
calcula directamente la aproximación a la distribución normal, aunque se explica la
posibilidad de realizar la aproximación dentro de la introducción teórica a la prueba que
se incluye en la página. El cuadro para introducir los datos y los resultados aparecen de
la siguiente forma:
Para obtener la prueba del signo en medidas repetidas, hay que introducir el número de
diferencias positivas y negativas, y se obtiene la significación de la prueba, que tampoco
plantea la aproximación a la normal.

Coeficiente de correlación lineal de Pearson
Este índice mide el grado de asociación existente entre dos variables. En concreto, mide
el grado de relación lineal que existe entre dos variables, con independencia de la escala
en que estas estén medidas (la covariancia, por el contrario, es dependiente de la escala
de medida).
En la red hemos encontrado varias páginas que permiten realizar cálculos y operaciones
relacionadas con el coeficiente de correlación. A continuación presentamos algunas de
ellas, a nuestro juicio las más interesantes y atractivas.
Coeficiente de correlación de Pearson. Jan de Leeuw. UCLA Statistics.
Obtiene el coeficiente de correlación, la covariancia, así como la media y la variancia
para cada variable. Incluye un gráfico de relación.
Se introducen los datos para dos variables, una en cada 'caja' de las dos que se disponen
en la página, y se hace clic en el botón Submit
El 'applet' halla el coeficiente de correlación de Pearson, y además proporciona la media
y variancia de cada variable y su covariancia. Hay que recordar que el índice de
correlación de Pearson se mueve siempre entre -1 y +1, mientras que la covariancia
depende de las unidades en las que las variables estén medidas.

Una utilidad interesante es que también proporciona un gráfico de relación (scatterplot),
situando en el eje de abcisas los valores de la variable entrada en la 'caja' izquierda y en
el eje de ordenadas los otros.
Otra dirección interesante e ilustrativa en relación con el tema es la siguiente:
Aplicación interactiva sobre el coeficiente de correlación. University of Illinois at
Urbana-Champaign. Department of Statistics. La aplicación presenta cuatro gráficos de
puntos, y cuatro coeficientes de correlación; y el usuario debe asignar cada coeficiente a
su gráfico respectivo.

Coeficiente de correlación de Spearman
Finalmente, si queremos estudiar la correlación lineal de dos variables a través de la vía
no paramétrica, en el siguiente Web podemos hallar el Coeficiente de correlación de
Spearman (Institute of Phonetic Sciences. Faculty of the Humanities. University of
Amsterdam), que es el coeficiente de correlación obtenido por vía no paramétrica. La
aplicación calcula el coeficiente de correlación de Spearman (sin corrección por
empates), para datos cuantitativos (realiza la transformación en rangos).
Hay que introducir las parejas de observaciones, de forma que cada fila representa los
valores recogidos para un sujeto o caso (cada observación de un sujeto tiene que estar
separada por un espacio en blanco) y cada columna representa los valores de una
variable. Al hacer clic sobre Submit, halla el valor del coeficiente de correlación de
Spearman (R), la significación y la aproximación a la normal.

Análisis de la variancia unifactorial
Cuando se está interesado en estudiar la relación existente entre un determinado factor
(variable manipulada por el investigador) con más de dos niveles (por ejemplo,
tratamientos A, B, C) sobre una variable respuesta aleatoria, se lleva a cabo un Análisis
de la Variancia. Al igual que en los apartados anteriores, hemos recopilado una serie de
direcciones en las que se pueden obtener aplicaciones interesantes relacionadas con este
tipo de análisis estadístico.
Cuando tenemos más de dos grupos, cada uno de los cuales recibe un determinado nivel
del factor (cada grupo recibe un tratamiento distinto), se realiza un ANOVA en grupos
independientes o entre grupos. El siguiente Calculador (T. Kirkman) permite obtener la
tabla del análisis de la variancia en grupos independientes (con la significación de la F),
para cualquier número de grupos y tamaño de muestra, además de proporcionar algunos

estadísticos descriptivos para cada grupo y una introducción teórica.
Para introducir los datos y poder iniciar por tanto la aplicación, hay que hacer clic sobre
el enlace ' Click here to start data entry'. Posteriormente se pide que se especifique el
número de grupos (entre 3 y 26) y el tamaño del grupo mayor (máximo 99).
Posteriormente hay que introducir las observaciones individuales para cada grupo, en un
cuadro destinado para tal fin, y apretar Calculate now para obtener los resultados, que
se presentan del siguiente modo para el ANOVA:

Para cada grupo se generan también una serie de estadísticos descriptivos:

Si deseamos realizar un ANOVA intra grupos o de medidas repetidas (esto es, los
mismos sujetos son evaluados bajo diferentes condiciones), en Internet se dispone de
estas aplicaciones, que son calculadores para la tabla del ANOVA en medidas repetidas
(vía paramétrica): k=3 (los sujetos pasan por tres condiciones experimentales) y k=4 (los
sujetos pasan por 4 condiciones experimentales). Richard Lowry. VassarStats.
Cuando se inicia la aplicación es preciso especificar el tamaño del grupo con más
sujetos. Posteriormente, en un cuadro típico estructurado de acuerdo al número de
sujetos que se han indicado, hay que introducir las observaciones individuales.

Haciendo clic sobre el botón Calculate, el 'applet' realiza el ANOVA correspondiente.
Hace explícitos los siguientes resultados para cada grupo, y también, obviamente, la
tabla del ANOVA.

No proporciona, como puede verse, la significación de la prueba pero ofrece la
probabilidad de enlazar con una página donde se puede consultar la tabla de la F.
La prueba no paramétrica adecuada para analizar la relación entre un factor de más de
dos niveles y una variable respuesta, es decir, un análisis de la variancia, es el
denominado test de Kruskal-Wallis. Puede realizarse a través de las siguientes
aplicaciones para k=3 y k=4. Richard Lowry. VassarStats.

Cuando se inicia la aplicación, solicita al usuario que indique el tamaño de cada grupo.
Posteriormente, hay que introducir en un recuadro como el que se muestra a
continuación (para k=·3), los rangos de cada grupo (el orden que cada observación de
cada grupo ocupa en la secuencia ordenada del total de observaciones de todos los
grupos, tal como se ejemplifica a continuación).
Si se desea, VassarStats dispone también de un calculador de rangos, al que usted puede
acceder a través del siguiente enlace: calculador de rangos. Se introducen las
puntuaciones individuales de forma conjunta, y la aplicación genera los rangos.
Los resultados generados por el 'applet' son los siguientes:

No proporciona directamente la significación de la prueba estadística, pero sí los valores
críticos para la distribución Ji-Cuadrado, en la que debe estudiarse dicha significación.
El ANOVA en medidas repetidas no paramétrico se resuelve a través de la prueba Q de
Friedman, accesible en Calculador de la Prueba de Friedman. Institute of Phonetic
Sciences. Faculty of the Humanities. University of Amsterdam.
En esta aplicación deben entrarse los datos tal como se muestra en el ejemplo, donde las
diferentes condiciones experimentales por las que pasan los sujetos son las columnas,
mientras que los sujetos se sitúan uno en cada fila, anotándose las puntuaciones de cada
sujeto bajo cada condición experimental. Las filas y las columnas deben recibir un
nombre, que se inicie con un carácter alfabético. El applet proporciona el valor de la
prueba, con sus grados de libertad, aunque no realiza la corrección por empates, si es
que estos existen. Halla la significación a través de la aproximación a la distribución Jicuadrado cuando es posible realizarla.
En la siguiente imagen puede verse el modo en el que hay que introducir los datos y los

resultados de la prueba.

Regresión lineal simple
La regresión lineal permite explicar qué parte de la variabilidad de la variable respuesta
es explicada por la variable independiente, estudiando la relación existente entre las dos
variables, X e Y, mediante una recta que ajuste los datos. El modelo de regresión lineal
postula que
Y= a+bX+e
donde, el residual e es una variable aleatoria que se distribuye normalmente con media
cero. y variancia constante. Los coeficientes a y b de la recta se estiman por el método
de mínimos cuadrados ordinarios, que proporcionan aquellos valores que minimizan la
suma de los cuadrados de los residuales.
A continuación presentamos algunas aplicaciones disponibles en la red para realizar
cálculos relacionados con la regresión lineal.

Regresión simple y correlación lineal (UCLA Statistics). Esta aplicación calcula el
coeficiente de correlación, la covariancia, así como los parámetros de la ecuación de
regresión de Y sobre X y de X sobre Y. Elabora también los dos gráficos (X sobre Y e Y
sobre X), tal como se muestra a continuación.
Otra aplicación de características similares es la siguiente: Regresión simple y
correlación lineal (VassarStats). Esta aplicación calcula el coeficiente de correlación, el
coeficiente de determinación, la pendiente (slope) de la recta de regresión y su punto de
intersección (intercept), así como el error estándar y la prueba para obtener la
significación del coeficiente de correlación.
En primera instancia hay que especificar el número de observaciones en las dos
variables. Después se deben entrar los datos, y el 'applet' calcula una serie de
estadísticos de resumen y los valores ligados a la regresión y correlación lineal:

A continuación se presenta otra aplicación que nos permite aproximarnos a la obtención
de la recta de regresión: Análisis de regresión (T.Kirkman). Calcula los parámetros de la
ecuación de regresión especificada, permitiendo optar por diferentes modelos de

ecuaciones de regresión.
Cuando la aplicación se inicia, el usuario debe determinar el número de valores de cada
variable. Después hay que introducir los datos, y el output que se genera es el siguiente:

Una aplicación muy interesante es la siguiente: Ajuste de la línea de regresión. Chuck
Stanton. University of Wisconsin-Madison.
La aplicación permite, en un gráfico, ir añadiendo puntos, y ver como se modifica la
recta de regresión. Además, proporciona la distancia de los residuales a la recta de
regresión, y el valor de la ecuación de regresión en función de los distintos puntos que el
usuario ha definido.

Modelos de relación multivariante
Los modelos de relación multivariante constituyen un campo muy amplio, y no es el
objetivo de este artículo entrar en profundidad en el análisis de los mismos.
Simplemente, y a modo orientativo, se proporcionarán algunas direcciones interesantes
para realizar dos tipos de análisis dentro de los modelos multivariantes: Los diseños
factoriales como generalización del análisis de la variancia y el modelo de regresión
múltiple como generalización de la regresión simple.

Diseños factoriales
Si en el ANOVA se estudia la relación entre un factor y una variable dependiente, en un
diseño factorial se estudia la relación entre dos factores, analizados conjuntamente, y
una variable dependiente. Cada uno de estos factores puede tener un determinado
número de niveles, dando lugar a diseños 2x2, 2x3, 3x3, etc., según los niveles de los
que conste cada factor.

Mediante las siguientes aplicaciones se pueden obtener los resultados para un diseño
factorial entre grupos (los sujetos que pasan por las distintas condiciones experimentales
son distintos) de los tipos 2x2, 2x3 y 3x3 (VassarStats ), con tamaños iguales o
distintos.

Una vez determinado el tamaño de la condición experimental con mayor número de
sujetos, se deben introducir los datos individuales en un cuadro del siguiente tipo (para
un diseño 2x2):

Haciendo clic sobre el botón Calculate, el programa calcula las medias de cada casilla o
condición experimental y obviamente, la tabla del diseño:

Para hallar las significaciones de las diferentes F's, se puede enlazar con unas tablas de
esta distribución. El procedimiento es análogo para los diseños 2x3, y 3x3.

Regresión múltiple
Autofit: Regresión múltiple. Autofit es un programa de Regresión múltiple que permite
automáticamente construir un modelo o ecuación de regresión. El usuario simplemente
introduce las variables dependiente e independientes y el programa hace el resto. Halla,
por ejemplo, que variables son suficientemente importantes para ser incluidas en el
modelo.
Las siguientes aplicaciones (VassarStats) permiten obtener la regresión múltiple si ya se
dispone de la matriz de correlaciones entre todas las variables independientes y
dependientes.




Regresión múltiple para 2 variables independientes y una dependiente
Regresión múltiple para 3 variables independientes y una dependiente
Regresión múltiple para 4 variables independientes y una dependiente

Para dos variables independientes, se introduce la matriz de correlaciones en el siguiente
recuadro,:
y haciendo clic sobre el botón 'Calculate' se generan los resultados, que aparecerían en
el siguiente output:

Si no se dispone de la matriz de correlaciones entre las variables, la regresión múltiple

se puede obtener mediante las siguientes aplicaciones (VassarStats):




Para dos variables independientes
Para tres variables independientes
Para cuatro variables independientes

Ejemplificando el caso en el que se tengan dos variables independientes, y una
dependiente, se introducen los datos en el siguiente cuadro, donde X1 y X2 son las
variables independientes e Y la dependiente.

La salida del calculador incluye una tabla 'resumen' de algunos estadísticos descriptivos

Comentarios de los usuarios



No hay ningun comentario, se el primero en comentar