El cuarto criterio para elegir un procedimiento estadístico para
el análisis de datos son los atributos de la variable de estudio. Las
propiedades que tienen los valores finales de una variable, son el orden, la
distancia y el origen. Estas propiedades hace que se generen cuatro escalas de
medición: nominal, ordinal, intervalo y razón.
La escala
nominal, no tiene ningún atributo; no existe un orden en las categorías:
masculino o femenino; sano o enfermo; soltero, casado, divorciado, viudo o
conviviente.
La escala
ordinal tiene la propiedad del orden, leve, moderado y severo; son niveles
de jerarquía y orden. Eso es lo que lo diferencia de la variable nominal, el
orden; por eso se llama ordinal, por el atributo orden que poseen los valores
finales.
La escala
de intervalo es característica de una variable numérica que tiene la
propiedad de orden y distancia; la propiedad de distancia de una medición
permite hacer métricas, razones y proporciones. Un billete de $100, se puede
cambiar por dos de $50, es el equivalente. Esa propiedad no existe en la
variable ordinal, no se puedo cambiar un profesional con grado de doctor por
dos magísteres.
La escala
de razón tiene orden, distancia y la última de las propiedades, el origen,
el origen le da a esta variable un punto de partida. Las variables en escala de
razón que tienen el cero, no existen. Por ejemplo, no existe un padre de
familia que tenga 0 hijos. No existe persona que pese 0 kilogramos, porque no
existe. Si no se acepta el cero, menos se va a aceptar el signo negativo. Esta
propiedad no la tiene la variable en escala de intervalo, por ejemplo el saldo
bancario puede ser negativo; la temperatura puede estar a menos 5 grados centígrados.
Estas escalas de medición tienen que ver con
los procedimientos analíticos, desde un punto de vista amplio, se tiene pruebas
estadísticas para datos numéricos y para datos no numéricos. Cuando se tiene
datos numéricos, se piensa en procedimientos estadísticos paramétricos, las
variables numéricas son más ricas en información que las variables categóricas,
las variables numéricas son las escalas de intervalo y razón, las escalas
categóricas son las escalas nominal y ordinal.
Las variables numéricas son más ricas en
información que las variables categóricas, por los atributos que poseen sus
valores finales, por eso hay más información en una variable numérica que en
una variable categórica. Por eso es mejor que las variables numéricas no se
categoricen para el análisis estadístico, ya que se pierde información.
Si se va realizar un procedimiento analítico
con variable numérica, también se requiere que tenga distribución normal como
primer requisito y luego dependiendo del procedimiento estadístico, se va a
requerir otras características; por ejemplo, si se va a comparar dos grupos, se
requiere homogeneidad de varianzas y si se van a tomar medidas repetidas, se va a requerir
esfericidad y si se va a hacer una regresión lineal van a aparecer cinco
requisitos o supuestos que debe de cumplir una regresión lineal.
Entonces, si no se puede realizar un procedimiento
paramétrico, existen procedimientos no paramétricos, estos procedimientos son ad-hoc
para variables categóricas o para variables numéricas que no cumplen los
requisitos que tenían que cumplir. Todos los procedimientos para variables
categóricas son no paramétricos, la prueba Chi cuadrado es un procedimiento no paramétrico,
pero nadie le llama así, porque Chi-cuadrado se usa cuando se tiene variables
categóricas, no cuando se tiene una variable numérica sin distribución normal.
Entonces si se tiene una variable numérica sin distribución normal, entonces se
debe utilizar la U de Mann-Whitney o Chi cuadrado, esto es porque hay orden y
jerarquía.
Si se tiene una variable numérica, se piensa en
un procedimiento paramétrico, pero si la variable aleatoria no tiene
distribución normal, no se debe bajar hasta una escala nominal, sino hasta una escala
ordinal, se puede perdería un poco de información. Por eso a U de Mann-Whitney,
Wilcoxon, el análisis de la varianza no paramétrico se utiliza nada más cuando
no hay distribución normal en las variables numéricas o cuando nativamente tus
variables son ordinales.
El cuarto criterio de la elección de un
procedimiento estadístico es precisamente los atributos o la naturaleza de la
variables, hay pruebas estadísticas para variables categóricas y hay pruebas
estadísticas para variables numéricas ejemplo es Chi cuadrado y t de Student, ambos
procedimientos responden a la misma intención; comparar. Por ejemplo, si se
quiere comparar el rendimiento académico de dos salones de clases salón A
y B, se usa t de Student; si se compara
el número de aprobados en cada salón se usa Chi cuadrado de homogeneidad; si se
compara el promedio de notas en cada salón se usa t de Student para muestras
independientes. Sin embargo la intención desde el punto de vista de la
investigación es la misma.
¿Cuál de estos dos salones tiene mejor rendimiento
académico?, se puede responder esta interrogante, con Chi cuadrado o con t de Student,
se eligió t de Student porque se tiene datos numéricos, que tienen más
atributos en sus valores finales, si se categoriza la variable, se está
perdiendo información. Si se va a categorizar, no se debe llegar a lo
dicotómico, se puede dejar en lo ordinal y eso va hacer que las conclusiones
tengan mayor capacidad predictiva.
Por otro lado, las pruebas estadísticas
dependen no tanto de la naturaleza de la variable, sino del comportamiento
aleatorio; las variables en escala de intervalo y en escala de razón a pesar de
esta diferencia de que las variables en escala de razón tienen un atributo
denominado origen y las de intervalo no, el comportamiento aleatorio de estas
dos variables es similar. Por eso las pruebas estadísticas para las escalas de
intervalo y razón son las mismas, en cambio las pruebas estadísticas para
variables nominales y ordinales, son distintas por el tipo de distribución. Entonces
interesa el tipo de distribución, recordando que dentro de las variables
numéricas, se tiene a las variables continuas y discretas; las variables
continuas provienen de medir y las variables discretas provienen de contar. Las
variables continuas son peso, talla, temperatura; las variables discretas son el
número de hijos, de clientes, de pacientes y se trata de números enteros. La
distribución de una variable discreta es distinta a la distribución de una
variable continua. Las distribuciones más frecuentes en estadística son la
distribución normal, distribución Z y la distribución t en cambio las
variables discretas son la distribución Binomial y la distribución Poisson.
No hay comentarios:
Publicar un comentario