Monografías
Publicar | Monografías por Categorías | Directorio de Sitios | Software Educativo | Juegos Educativos | Cursos On-Line Gratis

 

Estadística Multivariante parte 2 - Monografía



 
DESCARGA ESTA MONOGRAFÍA EN TU PC
Esta monografía en formato html para que puedas guardarla en tu pc e imprimirla.



Vínculo Patrocinado




Aquí te dejamos la descarga gratuita
Nota: para poder abrir archivos html solo necesitas tener instalado internet explorer u otro navegador web.




4. ANÁLISIS DE LA VARIANZA.



Pasamos ahora a realizar el análisis multivariante de la varianza también conocido como MANOVA.
Si nos fijamos en los datos, podemos observar dos variables no introducidas en el estudio previo de los datos, (ya que no son numéricas), que nos servirán para diferenciar los grupos. Estas variables son COMBUSTIBLE y TRACCIÓN. Se han elegido estas variables porque, evidentemente, es interesante saber si existen diferencias significativas entre automóviles diesel o gasolina. De igual forma estamos interesados en las diferencias entre vehículos con tracción delantera y trasera.

Las hipótesis nulas planteadas en el MANOVA son que los efectos de los distintos tratamientos de cada factor (combustible y tracción) sean nulos, frente a las hipótesis alternativas de que exista alguno que sea distinto de cero.

Ho (combustible)= “Los efectos de los tratamientos son cero”.

Ho (tracción)=”Los efectos de los tratamientos son cero”.

Además se plantea la hipótesis de la inexistencia de interacción.

Ho (interacción)=”No existe interacción entre los factores”.

La técnica MANOVA dispone de cuatro contrastes: de Wilk, Mayor raíz de Roy, Pillai, Lawley-Hotelling. Estos contrastes se basan en la comparación de las matrices H (matriz dentro) y E (Matriz entre), y en los autovalores de la matriz

Pasemos a ver los resultados:

La técnica MANOVA dispone de cuatro contrastes: de Wilk, Mayor raíz de Roy, Pillai, Lawley-Hotelling. Estos contrastes se basan en la comparación de las matrices H (matriz dentro) y E (Matriz entre), y en los autovalores de la matriz 4709.gif
Pasemos a ver los resultados:
4710.gif

Observamos que la hipótesis nula para el factor MOTOR es rechazada, por lo cual hay evidencia muestral de que existen diferencias significativas entre sus tratamientos. Cabe esperar este resultado sin más que pensar en el consumo. (Un coche diesel gasta menos que un coche de gasolina).
En cuanto al factor tracción, no hay evidencia muestral para rechazar la hipótesis nula. (El efecto de los tratamientos del factor tracción sobre las variables dependientes es nulo).
En cuanto a la interacción, tampoco podemos rechazar la hipótesis nula, por lo que admitimos que no existe interacción.
Realicemos ahora contrastes para cada factor:

TRACCIÓN.



4711.gif

Con este resultado se ratifica el obtenido anteriormente.

MOTOR.


4712.gif
Volvemos a rechazar la hipótesis nula. Ante esta situación, debemos realizar “ANOVAS” individuales para cada variable:

4713.gif

4714.gif

4715.gif

4716.gif

Las variables para las que se rechaza la hipótesis nula son centímetros cúbicos y consumo.
Existen diferencias significativas en estas variables según el tipo de combustible. Observamos los diagramas de cajas:
4717.gif

Este gráfico refleja, según los datos obtenidos, que un coche con motor de gasolina tiene un consumo ponderado (Urbano/extraurbano), mayor que un coche diesel.
Si nos fijamos ahora en el contraste realizado para la variable PESO, el p-valor está cercano a la frontera de rechazo. El motivo es que quizás exista una relación entre el tipo de motor y el peso del automóvil.
4718.gif

Parece que los coches con motor diesel tienen un peso más elevado que los de gasolina.
Finalmente realizamos la prueba de Levene de homogeneidad de varianzas de los errores:
4719.gif

Contrasta la hipótesis nula de que la varianza error de la variable dependiente es igual a lolargo de todos los grupos

El único problema se presenta en la variable número de cilindros. En ningún caso restante se rechaza la hipótesis nula.

5. ANÁLISIS DE COMPONENTES PRINCIPALES.



El análisis de componentes principales tiene como objetivo calcular una serie de combinaciones lineales de las variables de forma que maximicen la varianza de las componentes con la restricción de que distintas combinaciones lineales sean ortogonales.
Refiriéndonos a la matriz de correlaciones presentada al inicio, observamos que existe una fuerte correlación entre las variables, condición indispensable para que tenga sentido aplicar el método. Existen varias formas de seleccionar el número de componentes con las que nos vamos a quedar. Nosotros nos quedaremos con el menor número de componentes que expliquen, al menos, un 78% de la variabilidad.
Otros métodos de elección pueden ser:
- Fijar un valor de corte de los valores propios de S, seleccionando tantas como valores propios haya superiores al límite prefijado.
- Utilizando el gráfico en ladera, seleccionando el número que haya antes de que el gráfico pase a ser prácticamente horizontal.

Observemos el gráfico en ladera:

4720.gif

Antes de que pase a ser horizontal, hay dos componentes.

Veamos los resultados del análisis:

4721.gif

El porcentaje acumulado de varianza explicada por las dos primeras componentes, 78.806%, supera al nivel prefijado.

Veamos los pesos de las componentes:

4723.gif

Las variables con pesos más altos en la primera componente son: PRECIO, CENTÍMETROS CÚBICOS, PESO, CONSUMO, ANCHO, LARGO.

4724.gif

6. ANÁLISIS FACTORIAL.



El objetivo de este método es resumir la información obtenida de las variables iniciales expresando las mismas como combinación lineal de otras variables no observables (subyacentes) denominadas factores. Buscamos una estructura de interrelación en nuestras variables.
Existen varios métodos de extracción de factores. El aquí empleado es el método de las componentes principales.
El análisis factorial es factible cuando las variables están relacionadas. Recordemos la matriz de correlaciones:

4725.gif

Observamos coeficientes elevados indicando que entre algunas variables existe una correlación alta.
(Algunos autores sugieren que la inversa de la matriz de correlaciones sea casi diagonal para obtener un buen ajuste).

Se suelen utilizar ciertas medidas apropiadas para decidir si es factible realizar un análisis factorial.

MEDIDA KAISER-MEYER-OLKIN:



Esta medida está basada en los coeficientes de correlación parcial y su rango de variación está entre 0 y 1. Además es invariante frente al método de obtención de factores y a cualquier método de rotación. Cuanto mayor sea su valor, mejor resultado obtendremos en el análisis.
4726.gif

El valor de KMO permite asegurar un buen análisis factorial, además se rechaza el test de Bartlett o test de esfericidad por lo que rechazamos que la matriz R sea diagonal.

MEDIDA DE ADECUACIÓN MUESTRAL.



Esta medida nos indica hasta que punto debe entrar una variable en el análisis factorial. Sus valores corresponden a la diagonal de la matriz anti-imagen:
4727.gif

Los valores correspondientes no son demasiado bajos. Por el momento no hay necesidad de eliminar ninguna variable.

COMUNALIDADES

.

Las comunalidades miden el grado de información que tengo antes de realizar la extracción de factores y después de hacerlo.
Las variables que presenten una comunalidad baja no nos interesa tenerlas presentes en nuestro estudio.
4728.gif

La variable consumo tiene una comunalidad baja. Por el momento vamos a seguir considerándola.

Matriz de componentes.



Al tener un tamaño muestral no demasiado grande, vamos a considerar despreciables aquellos valores menores de 0.6. De esta forma la interpretación nos será más sencilla.
4729.gif

Observamos que los pesos mayores se encuentran en el primer factor exceptuando la variable ALTURA.

Veamos ahora cual es el porcentaje de variabilidad que nuestro modelo explica para el fenómeno:
4730.gif

Se puede observar que explicamos un 78.806% de la variabilidad total.

Para conseguir un modelo de estructura simple debemos realizar una rotación. El método empleado es el de rotación VARIMAX.

4731.gif

Método de rotación: Normalización Varimax con Kaiser a. La Rotación ha convergido en 3 iteraciones.

Prestando atención a la matriz obtenida, observamos que la variable CONSUMO no tiene pesos en ningún factor. Veamos que ocurre al eliminarla:

4732.gif

El valor de KMO obtenido es ligeramente mejor quitando esta variable.

4733.gif

Además, las medidas de adecuación muestral se mantienen altas en todas las variables.

Veamos las comunalidades:


4734.gif

Todas presentan un valor alto.

4735.gif

Además ahora explicamos un 83.992% de la variabilidad total.
La matriz de componentes rotados es:
4736.gif

Esta será la matriz final de los pesos de los factores.
Podemos darle la siguiente interpretación a los mismos:
FACTOR 1: representa, fundamentalmente, las características técnicas del vehículo.
FACTOR 2: representa las dimensiones del vehículo.

Veamos ahora las puntuaciones factoriales que nos indican los valores que toman los factores para cada individuo:
4737.gif

Y la matriz de coeficientes para el cálculo de las puntuaciones.

4738.gif

7. CONCLUSIÓN.



Como dijimos en la introducción, a la hora de comprar un automóvil, hemos de tener en cuenta una serie de variables (las aquí presentadas) con el fin de ver y comparar las características que más nos interesan. Pero es evidente que puede ser algo dificultoso establecer una relación entre ellas sin ayuda de algunos métodos estadísticos. Gracias a su aplicación nos resulta más sencillo distinguir diferencias entre algunas variables, como por ejemplo, la existente entre los coches diesel y gasolina. Está claro que si estamos buscando un coche económico, que es una elección sino acertada, conveniente (ya vemos como está el petróleo últimamente), debemos inclinarnos hacia la elección de un diesel en vez de un gasolina, independientemente del resto de las variables. (Excepción es la variable centímetros cúbicos). Además la tecnología TDI o turbo diesel de inyección hace que además de ser más rentable un diesel, obtengamos prácticamente las mismas prestaciones que con un coche de gasolina.
Mediante el análisis factorial hemos obtenido dos grupos diferenciados de variables. Un grupo está formado por aquellas variables que miden las características técnicas del coche. (Potencia, caballos de vapor, velocidad máxima, etc.) Dentro de este grupo se encuentra el precio por lo que parece que este va a depender bastante de los rasgos técnicos del automóvil. (Cosa bastante lógica). El grupo restante está formado variables que describen las dimensiones del coche. Altura, longitud, ancho, etc. Estas variables quizás sean menos importantes a la hora de hacer la elección.
También hemos observado que el consumo medio no tenía pesos importantes en ninguno de los factores. (De hecho, se eliminó del análisis). Además, si nos fijamos en los coeficientes de correlación de esta variable con el resto, observamos que todos son muy bajos lo cual indica que no existe mucha relación entre el consumo y las demás variables. Sin embargo y como ya hemos comentado, si que tiene importancia distinguir el tipo de motor (diesel o gasolina) en esta variable.
Hemos obtenido unos resultados más o menos coherentes, aunque el reducido tamaño muestral no nos permita obtener muchas más conclusiones. Quizás fuese conveniente aumentar el tamaño de la muestra.

Autor:

Enrique Dominguez Contreras





Creative Commons License
Estos contenidos son Copyleft bajo una Licencia de Creative Commons.
Pueden ser distribuidos o reproducidos, mencionando su autor.
Siempre que no sea para un uso económico o comercial.
No se pueden alterar o transformar, para generar unos nuevos.

 
TodoMonografías.com © 2006 - Términos y Condiciones - Esta obra está bajo una licencia de Creative Commons. Creative Commons License