El sexto y último criterio para elegir un procedimiento
estadístico para el análisis de datos es el comportamiento de los datos. Este
criterio es el más desconocido de todos, la bibliografía habla muy poco, pero
es un criterio real a tomar en cuenta. Pensemos en la prueba Chi cuadrado, que tiene
una corrección que se llama la corrección de Yates, y se aplica cuando una de
las casillas esperadas en la tabla de contingencia está por debajo de un valor
esperado, sucede cuando se tiene muy pocos datos y la muestra es pequeña; entonces
se hace una corrección, ya que no se sabía que esto iba a ocurrir desde el
momento en que se planeó el estudio, en lugar de aplicar Chi Cuadrado, se aplica
la corrección de Yates.
Otro ejemplo, cuando se comparar dos grupos y
la variable aleatoria a comparar es numérica. Una variable aleatoria es aquella
que cuando se realiza un estudio, recién
te enteras de su valor cuando la mides. Entonces en una comparación de dos
grupos, se tiene dos variables, la variable de conformación de grupo (es fija)
y la variable aleatoria que se va a medir, se aplica entonces t de Student para
muestras independientes. Pero si la variable aleatoria no tiene distribución
normal, entonces se decide aplicar la U de Mann-Whitney, que es su equivalente
no paramétrico. A pesar de que el tipo, el nivel y diseño de investigación es el
mismo, es la misma variable, el mismo atributo de la variable y el mismo
objetivo del estudio; pero no cumple el criterio del comportamiento de los
datos, ya que la variable aleatoria no presenta distribución de normalidad, se debe
cambiar de prueba estadística, de la t de Student a la U de Mann-Whitney.
Las variables numéricas son continuas y
discretas. El problema de la normalidad es para las variables continuas, ya que
cuando se usa una variable continúa, se parte de la premisa de que tiene
distribución normal.
Pero cuando se trabaja con variables discretas
no se parte de esa premisa, porque la variable discreta es conteo, es número
entero; por ejemplo, número de pacientes que llegan, número de clientes que se atiende,
número de alumnos en un salón, el número de hijos en una familia.
Las variables discretas tienen distribución
binomial o distribución Poisson, ¿Cuál es la diferencia?, la distribución
binomial tiene un límite, mientras que la distribución de Poisson no tiene límite.
Entonces los procedimientos analíticos que se
desarrollan para la distribución normal, la distribución binomial y la distribución
Poisson son distintos, muchas veces nos enfocados nada más en la distribución
normal, pero la distribución normal es para las variables continuas y cuando de
variables numéricas se trata, se tiene variables continuas y variables
discretas y la diferencia entre las variables numéricas está precisamente ahí,
no está en las escalas de medición: escala de intervalo y escala de razón,
desde el punto de vista aleatorio se comportan de la misma manera.
En las variables categóricas, nos enfocamos en
las escalas de medición nominal y ordinal porque los procedimientos
estadísticos para una y otra escala, sí son distintos. Cuando se tiene una
variable, no se conoce su distribución, hasta que no se realice una prueba de
contraste, es decir la prueba de Kolmogórov-Smirnov, que pone a prueba o somete
a contraste la distribución de una variable respecto de la distribución normal,
pero Z de Kolmogórov-Smirnov es mucho más que eso; se puede someter a contraste
la distribución de una variable a cualquier otra distribución y Kolmogórov-Smirnov
es versátil frente a esa situación. Aspecto que no lo hace Shapiro-Wilks, ni Anderson-Darling,
por eso es que esta prueba estadística es más difundida, porque es más versátil
que los otros procedimientos, para demostrar no tanto la normalidad, sino el contraste
con otros tipos de distribución.
Para estar seguros frente a qué distribución
nos encontramos, se tiene que hacer una prueba de hipótesis, hacer un contraste,
un procedimiento analítico; porque de eso va a depender el análisis estadístico
más adelante.
No hay comentarios:
Publicar un comentario