Monografías
Publicar | Monografías por Categorías | Directorio de Sitios | Software Educativo | Juegos Educativos | Cursos On-Line Gratis

 

Estadística Multivariante parte 1 - Monografía



 
DESCARGA ESTA MONOGRAFÍA EN TU PC
Esta monografía en formato html para que puedas guardarla en tu pc e imprimirla.



Vínculo Patrocinado




Aquí te dejamos la descarga gratuita
Nota: para poder abrir archivos html solo necesitas tener instalado internet explorer u otro navegador web.





Análisis estadístico. Factorial. Componentes. Metodología. Hipótesis. Distancia de Mahalanobis. Aleatoriedad. Varianza



 1.    INTRODUCCIÓN.


De acuerdo con el planteamiento de la asignatura Análisis Multivariante I, referente a todos aquellos métodos destinados al análisis de múltiples variables en conjunto,  nos disponemos a realizar un estudio sobre los datos obtenidos de 13 variables, referentes al mes de septiembre del año 2000, que representan las características principales en automóviles.
El objetivo fundamental y motivación de este trabajo es poder aplicar las técnicas multivariantes más relevantes (Análisis multivariante de la varianza,  análisis factorial, análisis de componentes principales), ya que vamos a disponer de un número elevado de variables,  así como detectar la potencial relación entre las variables consideradas y aplicar en consecuencia los citados métodos para el agrupamiento de variables. (Análisis factorial y análisis de componentes principales).
La muestra seleccionada está formada por 24 automóviles para los cuales se han medido datos técnicos y relativos a la dimensión de los mismos. En concreto las variables consideradas son las siguientes:

- Precio del automóvil. (En pesetas)
- Tipo de combustible.
- Tracción.
- Número de cilindros.
- Cilindrada. (En centímetros cúbicos)
- Potencia. (En caballos de vapor)
- Longitud. (En centímetros)
- Anchura. (En centímetros)
- Altura. (En centímetros)
- Volumen del maletero. (En litros)
- Peso. (En kilogramos)
- Consumo medio. (En litros)
- Velocidad máxima. (En kilómetros/hora)

Lo que representa cada variable es muy claro, además, en conjunto, definen de manera acertada las principales características en las que un posible comprador debe fijarse a la hora de adquirir un automóvil.
Estamos interesados en detectar cuales son las variables que influyen de manera significativa en el precio de un coche, la detección de grupos de variables que estén correlacionadas y las diferencias significativas que pueden existir atendiendo al tipo de combustible utilizado (gasolina o diesel) y a la tracción (delantera o trasera).

2.    METODOLOGÍA.


El proceso de análisis, como ya hemos dicho anteriormente, tiene como objetivo la detección de grupos de variables altamente relacionadas. Para este fin la metodología empleada es la siguiente:

- Análisis inicial de los datos, obteniendo previa información sobre las variables y la relación existente entre ellas,  así como la formulación y comprobación de las hipótesis del modelo.
- Aplicación de la técnica MANOVA.
- Análisis de componentes principales.
- Análisis factorial.
- Conclusiones.

Las distintas técnicas empleadas se irán explicando de forma breve a lo largo del proceso analítico.
A continuación presentamos una tabla en la que aparecen los datos obtenidos y los estadísiticos más relevantes como pueden ser la media y desviación típica de cada variable numérica:

4679.gif

4680.gif

3.    ANÁLISIS PREVIO DE LOS DATOS Y COMPROBACIÓN DE LAS HIPÓTESIS.



La formulación y comprobación de las hipótesis previas viene motivada por la necesidad de que los datos cumplan una serie de requisitos necesarios  para la realización de las técnicas multivariantes. Con esto nos aseguraremos una mayor fiabilidad en los resultados obtenidos.

Como ya es sabido, las hipótesis que hemos de comprobar son:

- Linealidad.
- Normalidad.
- Aleatoriedad.
- Homocedasticidad.

El incumplimiento de alguna de estas hipótesis nos lleva a la realización de transformaciones adecuadas para que se verifiquen.

ANÁLISIS INICIAL DE LOS DATOS.



Presentamos a continuación el vector de medias, la matriz de varianzas-covarianzas,  la matriz de correlación de las variables numéricas.

Vector de medias.

4681.gif
El orden de las variables es el mismo que en la tabla de datos presentada anteriormente. (Variables numéricas).

Varianzas-covarianzas.


4682.gif

4683.gif

4684.gif

Correlaciones.



4685.gif

Observando  la matriz de correlaciones, podemos comprobar que existen pares de variables con coeficientes de correlación bastante significativos (Altos). Este hecho es de gran utilidad a la hora de aplicar técnicas de reducción de datos ya que si las variables no están relacionadas, no tiene sentido aplicarlas.
Si nos fijamos por ejemplo en las variables VELOCIDAD MÁXIMA y CABALLOS DE VAPOR, el coeficiente que presentan tiene un valor de 0.907. Evidentemente, es de esperar que cuanto mayor sea la potencia de un coche, mayor velocidad alcanzará. De la misma forma ocurre con el PESO y la LONGITUD.
Además el determinante de la matriz de correlaciones es:   .
Este valor es prácticamente cero, lo cual indica que existe una correlación fuerte aunque no haya multicolinealidad estricta.
Este tipo de información nos va a ir ayudando durante el desarrollo de nuestro trabajo.

COMPROBACIÓN DE LAS HIPÓTESIS.



Llega el momento de comprobar si se verifican las hipótesis previas al modelo.
Como hemos dicho anteriormente, la comprobación de las hipótesis se hace necesaria para obtener un “índice de fiabilidad” alto en nuestros resultados.
Utilizaremos métodos gráficos y analíticos en el proceso.

Normalidad.


Comenzamos con el estudio de la normalidad, analizando cada variable unidimensional mediante procedimientos gráficos y posteriormente, analíticos.
El uso de histogramas con representación de la curva de distribución, nos puede ser de gran utilidad a la hora de decidir si las variables se distribuyen normalmente.

4687.gif

4688.gif

4689.gif

4690.gif

4691.gif

4692.gif

4693.gif

A la vista de los resultados obtenidos, podemos tener una idea de las variables que van a presentar problemas de normalidad así como problemas de simetría y curtosis. Aunque los métodos gráficos son bastante intuitivos, el rigor nos conduce a efectuar  una serie de contrastes para la comprobación de la normalidad, (kolmogorov-Smirnov, Shapiro-Wilk) en cada una de las variables y si resultan ser todas normales, entonces contrastaremos la normalidad multivariante

4694.gif

Según el resultado de estos contrastes, podemos considerar que las variables PRECIO, POTENCIA, LONGITUD, ALTURA, VOLUMEN, PESO, CONSUMO y VELOCIDAD se distribuyen aproximadamente según una normal. (El nivel de significación considerado es   ).

Observemos los gráficos de probabilidad normal para dichas variables:
4695.gif

4696.gif

4697.gif

4698.gif
4699.gif

4700.gif

4701.gif
En algunas variables hemos rechazado la hipótesis de normalidad, por lo que descartamos el contraste multivariante.
El incumplimiento leve de la hipótesis de normalidad no condiciona demasiado la fiabilidad de los resultados.

Homocedasticidad.



Al igual que la normalidad, para la igualdad de varianzas, existen métodos gráficos y analíticos de comprobación.
Estudiemos el típico gráfico de dispersión de valores ajustados frente a residuos.

4702.gif
Este gráfico se consigue realizando una regresión múltiple considerando como variable dependiente el precio y como variables independientes, las demás. Aunque el tamaño de la muestra no sea lo suficientemente deseable, parece que no existe problema grave de heterocedasticidad ya que no se observa ningún patrón a primera vista.

Aleatoriedad.



4703.gif

Observando el gráfico de valores ajustados frente a los residuos y aunque el tamaño de la muestra, volvemos a incidir en esto, sea quizás algo pequeño, no se observa ningún patrón definido, por lo que parece que los datos son aleatorios.
Para más seguridad podemos hacer el test de rachas:

4704.gif

Existe un problema para calcular el test en la variable número de cilindros ya que solo hay una racha. En general el resultado es bueno aunque rechacemos para las variables CILINDRADA y CONSUMO.

Detección de observaciones atípicas.  Distancia de Mahalanobis.

Se define la distancia de Mahalanobis como   4705.gif
El cálculo de la misma nos servirá para detectar las posibles observaciones atípicas (out-liers) que pueden ser causantes de errores en nuestro análisis. En el caso concreto del cálculo de las componentes principales, la presencia de out-liers provoca un aumento en la varianza o una distorsión en las covarianzas. En las últimas componentes principales los valores atípicos serán aquellos que introducen nuevas dimensiones o enmascaran singularidades. Si detectamos presencia de out-liers, puede ser conveniente eliminarlos y reanudar el estudio con el resto de los valores. (Técnica de componentes principales robusta).

4706.gif

La distancia de Mahalanobis se distribuye según una 4707.gif  siendo p el número de variables. (En este caso 11). Comparando las distancias calculadas con el cuantil   4708.gif , observamos que no existe ninguna observación atípica.





Creative Commons License
Estos contenidos son Copyleft bajo una Licencia de Creative Commons.
Pueden ser distribuidos o reproducidos, mencionando su autor.
Siempre que no sea para un uso económico o comercial.
No se pueden alterar o transformar, para generar unos nuevos.

 
TodoMonografías.com © 2006 - Términos y Condiciones - Esta obra está bajo una licencia de Creative Commons. Creative Commons License