lunes, 21 de mayo de 2018

Análisis Multivarial (II)


Las técnicas multivariadas más utilizadas son las siguientes:

Componentes Principales
Este método permite obtener componentes o combinaciones lineales de las variables originales y permiten simplificar el universo de estudio, centrándose en las componentes que sintetizan la máxima variabilidad residual. Los objetivos más importantes son:
  • Generar nuevas variables que expresen la información contenida en el conjunto original de datos.
  • Reducir las dimensiones o factores del problema que se está tratando, como paso previo para futuros análisis.
  • Eliminar algunas de las variables originales que aportan poca información o variables que contiene parte de información ya suministrada por otras variables.

El análisis por componentes principales debe ser aplicado cuando se desea conocer la relación entre los elementos de una población y se sospeche que en dicha relación influye de manera desconocida variables subyacentes o características de los elementos.

Análisis factorial
Este término engloba varias técnicas que buscan explicar la correlación de un conjunto grande de variables en términos de un conjunto reducido de variables subyacentes denominadas factores. Al reducir el número de variables, los procedimientos tratan de retener la mayor cantidad de información posible y de hacer de las variables restantes tan significativas y tan fáciles de manipular como sea posible. El propósito del análisis factorial es generar una comprensión de la estructura fundamental de las preguntas, variables u objetos y combinarlos en nuevas variables.

El análisis factorial permite generar varias soluciones para un mismo conjunto de datos, cada solución es generada por un esquema de rotación de factores, es decir, cada rotación tiene una interpretación diferente y esto se lo hace en términos de cargas o puntajes de factores.

Análisis Discriminante
Si el objetivo del análisis factorial es generar dimensiones que maximicen la interpretación y expliquen la varianza, el objetivo del análisis discriminante es generar dimensiones que discriminen o separen los objetos tanto como sea posible, es decir, identificar grupos o conglomerados de atributos sobre los cuales difieren los objetos. Al igual que en el análisis factorial, cada dimensión se basa en una combinación de los atributos fundamentales.

Clasificación
Una opción de analizar y estudiar un conjunto de individuos es clasificándolos en subconjuntos de acuerdo con algún objetivo predeterminado. La clasificación trata el problema de dividir un conjunto en subconjuntos, de tal modo que la diferencia entre elementos de un mismo subconjunto sea mínima y sea máxima para los elementos de diferentes subconjuntos. La formulación matemática y estadística se realiza mediante métodos como: modelos probabilísticos, teoría de grafos o criterios de optimización y algoritmos.

El uso de las técnicas de clasificación se basa en ideas generales concernientes a las observaciones. Busca revelar una partición que realmente exista (esta existencia es conjeturada antes del análisis estadístico o es revelada después del análisis). De modo inverso, la partición se emplea como instrumento para explorar los datos. Este último caso, es una generalización de histogramas unidimensionales, que con el objeto de facilitar el análisis, las observaciones se agrupan en clases homogéneas.

Las técnicas de clasificación recurren a métodos algorítmicos. Se consideran dos tipos de métodos de clasificación: los métodos jerárquicos y los métodos no jerárquicos.

Las técnicas de clasificación jerárquica presentan una estructura de árbol. Todos los individuos forman una clase, luego dos, tres, etc. clases y finalmente cada individuo forma una clase. Si se parte de “n” clases, con un individuo cada una y se van agrupando por pasos sucesivos hasta formar una sola clase, la técnica es aglomerativa, en caso contrario es divisiva.

En el caso de los métodos de clasificación no jerárquicos el número de clases se establece a priori y el algoritmo de clasificación asigna los individuos a las clases, partiendo de algunos valores iniciales y buscando optimizar algún criterio establecido previamente.

Correlación Canónica
Esta técnica consiste en buscar las máximas correlaciones posibles en un conjunto de variables.

El análisis de correlación canónica tiene ciertas propiedades similares al análisis de componentes principales, sin embargo, éste considera relaciones dentro de un conjunto de variables, la correlación canónica lo hace entre dos conjuntos de variables. El análisis de correlación canónica es una extensión de la técnica de regresión múltiple, que busca estimar las relaciones entre las variables independientes y la variable dependiente.

Actualmente existen otras técnicas multivariadas que se han desarrollado paralelo a la evolución de las TICs. Algunos de estas técnicas son: Escala Multidimensional, Análisis Path, Análisis de Series Cronológicas, Mapas Multidimensionales, Correspondencia Binaria y Múltiple.