Estadística multivariant
L'estadística multivariant és una subdivisió de l'estadística que combina l'observació simultània i l'anàlisi de més d'una variable explicada. L'aplicació de l'estadística multivariant és l'anàlisi multivariant.
L'ús de l'estadística multivariant té a veure amb els diferents objectius i rerefons de les diferents formes d'anàlisi multivariant, així com amb la seva relació. La implementació pràctica de l'estadística multivariant pot implicar diversos tipus d'anàlisis univariants i multivariants per tal d'entendre les relacions entre variables i la seva rellevància amb el problema concret que s'està estudiant.
Addicionalment, l'estadística multivariant considera les distribucions de probabilitat multivariants, pel que fa a aquests dos aspectes:
- com es poden fer servir per representar les distribucions de les dades observades, i
- com es poden fer servir com a part de la inferència estadística, en especial quan existeixen diferents quantitats que són interessants per a la mateixa anàlisi.
Alguns tipus de problemes que impliquen dades multivariants, com per exemple la regressió lineal mínim-quadràtica o la regressió múltiple, no s'acostumen a considerar com a casos especials d'estadística multivariant, perquè l'anàlisi es realitza tenint en compte la distribució condicional (univariant) d'una sola variable explicada, donades les altres variables (les explicatives).
Tipus d'anàlisis
Existeixen diferents models, cadascun amb el seu tipus d'anàlisi:
- L'anàlisi multivariant de la variància (MANOVA, (anglès) multivariate analysis of variance) estén l'anàlisi de la variància per donar cobertura als casos on cal analitzar simultàniament més d'una variable dependent. Un concepte relacionat és l'anàlisi multivariant de la covariància (MANCOVA, (anglès) multivariate analysis of covariance).
- La regressió multivariant intenta determinar una fórmula que descrigui com responen els elements d'un vector de variables als canvis en altres variables. Per a relacions lineals, les anàlisis de regressió es basen en formulacions del model lineal general. Cal notar que la regressió multivariant és diferent de la regressió multivariable, que només té una variable dependent.[1]
- L'anàlisi de components principals (PCA, (anglès) principal components analysis) crea un nou conjunt de variables ortogonals que contenen la mateixa informació que el conjunt inicial. La interpretació geomètrica és que s'efectua una rotació dels eixos de variació per donar un nou conjunt d'eixos ortogonals, ordenats de manera que sumaritzen proporcions decreixents de la variació.
- L'anàlisi factorial és similar a la PCA, però permet a l'usuari extreure un nombre especificat de variables sintètiques, menys que el nombre inicial, tot deixant com a error la variació inexplicada remanent. Les variables extretes es coneixen com a variables latents o factors; hom pot pensar que cadascuna d'elles intervé en la covariació en un grup de variables observades.
- L'anàlisi de correlació canònica troba relacions entre dos conjunts de variables; és la versió generalitzada (és a dir, canònica) de la correlació bivariant.
- L'anàlisi de redundància (RDA, (anglès) redundancy analysis) és similar a l'anàlisi de correlació canònica, però permet a l'usuari derivar un nombre especificat de variables sintètiques a partir d'un conjunt de variables (independents) que expliquin tanta variància com sigui possible en un altre conjunt (independent). És un anàleg multivariant de la regressió.
- L'anàlisi de correspondències (CA, (anglès) correspondence analysis), o mitjana recíproca ((anglès) reciprocal averaging), troba (com la PCA) un conjunt de variables sintètiques que sumaritzen el conjunt original. El model subjacent assumeix disparitats khi-quadrat entre els registres (casos).
- L'anàlisi de correspondència canònica (CCA, (anglès) canonical –o constrained– correspondence analysis) per sumaritzar la variació conjunta en dos conjunts de variables (com en l'anàlisi de redundància); és una combinació de l'anàlisi de correspondència i l'anàlisi de regressió multivariant. El model subjacent assumeix disparitats khi-quadrat entre els registres (casos).
- L'escalat multidimensional ((anglès) multidimensional scaling) comprèn diversos algorismes per determinar un conjunt de variables sintètiques que representin el millor possible les distàncies dues a dues entre els registres. El mètode original és l'anàlisi de coordenades principals (PCoA, (anglès) principal coordinates analysis), basat en la PCA.
- L'anàlisi discriminant ((anglès) discriminant analysis, o canonical variate analysis) intenta establir si es pot emprar un conjunt de variables per tal de distingir dos o més grups de casos.
- L'anàlisi discriminant lineal (LDA, (anglès) linear discriminant analysis) calcula un estimador lineal a partir de dos conjunts de dades distribuïdes normalment per així poder classificar noves observacions.
- La clusterització de dades ((anglès) cluster analysis) assigna objectes a grups (anomenats clústers), de tal manera que els objectes (casos) del mateix clúster són més similars entre ells que amb els objectes d'altres clústers.
- El particionament recursiu ((anglès) recursive partitioning) crea un arbre de decisió que intenta classificar correctament els membres de la població basat en una variable dependent dicotòmica.
- Les xarxes neuronals artificials ((anglès) artificial neural networks) estenen els conceptes de regressió i mètodes de clústering per al cas de models multivariants.
- La representació gràfica de dades estadístiques ((anglès) statistical graphics) com per exemple les corbes de nivell, els gràfics de coordenades paral·leles o les matrius de dispersió es poden utilitzar per esplorar dades multivariants.
- Els models d'equacions simultànies ((anglès) simultaneous equations models) tenen en compte més d'una equació de regressió, amb variables dependents diferents, estiamtes en el seu conjunt.
- L'autoregressió vectorial ((anglès) vector autoregression) considera rgressions simultànies de diverses sèries temporals construïdes a partir dels propis valors i d'altres valors decalats.
Distribucions de probabilitat importants
Existeixen diverses funcions de probabilitat emprades en anàlisi multivariant que juguen un rol similar a les distribucions corresponents emprades en anàlisi univariant, com quan s'usa la distribució normal per descriure i analitzar un conjunt de dades. Aquestes distribucions multivariants són:
- Distribució normal multivariant
- Distribució de Wishart
- Distribució t de Student multivariant
La distribució de Wishart inversa és important en inferència bayesiana, per exemple en regressió lineal multivariant bayesiana. A més, la distribució T² de Hotelling és una distribució multivariant, que generalitza la distribució t de Student, emprada en contrastos d'hipòtesi multivariats.
Història
L'obra d'Anderson de 1958 An Introduction to Multivariate Analysis[2] serví com a base formativa per a una generació de teòrics i estadístics aplicats. Aquesta obra ressalta l'ús del contrast d'hipòtesi mitjançant test de raó de versemblança i les propietats del poder estadístic: admissibilitat, no-esbiaixament i monotonia.[3][4]
Programari i eines
Existeix una àmplia varietat de paquets de programari i altres eines per realitzar anàlisis multivariants, com ara:
- High-D
- JMP (programari)
- Minitab
- Calc
- PLS_Toolbox / Solo (Eigenvector Research)
- PSPP
- R: la web http://cran.r-project.org/web/views/Multivariate.html Arxivat 2015-09-06 a Wayback Machine. conté detalls sobre els paquets disponibles per fer anàlisis de dades multivariants
- SAS (llenguatge de programació)
- SciPy per Python
- SPSS
- Stata
- STATISTICA
- TMVA - Toolkit for Multivariate Data Analysis in ROOT
- The Unscrambler
- SmartPLS - Next Generation Path Modeling
- MATLAB
- Eviews
- Prosensus ProMV Arxivat 2015-11-17 a Wayback Machine.
- Umetrics SIMCA
Referències
- ↑ Hidalgo, Bertha; Goodman, Melody «Multivariate or multivariable regression?». American journal of public health, 103.1, 2013, pàg. 39-40. DOI: 10.2105/AJPH.2012.300897.
- ↑ T.W. Anderson (1958) An Introduction to Multivariate Analysis, Nova York: Wiley ISBN 0471026409; 2e (1984) ISBN 0471889873; 3e (2003) ISBN 0471360910
- ↑ Sen, Pranab Kumar; Anderson, T. W.; Arnold, S. F.; Eaton, M. L.; Giri, N. C.; Gnanadesikan, R.; Kendall, M. G.; Kshirsagar, A. M.; Mardia, K. V. «Review: Contemporary Textbooks on Multivariate Statistical Analysis: A Panoramic Appraisal and Critique». Journal of the American Statistical Association, 81, 394, juny 1986, pàg. 560–564. DOI: 10.2307/2289251. ISSN: 0162-1459. JSTOR: 2289251.(Pages 560–561)
- ↑ Schervish, Mark J. «A Review of Multivariate Analysis». Statistical Science, 2, 4, novembre 1987, pàg. 396–413. DOI: 10.1214/ss/1177013111. ISSN: 0883-4237. JSTOR: 2245530.
Bibliografia
- Johnson, Richard A.; Wichern, Dean W. Applied Multivariate Statistical Analysis. 6a edició. Prentice Hall, 2007. ISBN 978-0-13-187715-3.
- Mardia, Kantilal Mardia; Kent, J.T.; Bibby, J.M.. Multivariate Analysis. Academic Press, 1979. ISBN 0-12-471252-5.
- Sen, A.; Srivastava, M. Regression Analysis — Theory, Methods, and Applications. 4a impressió. Berlín: Springer-Verlag, 2011.
- Cook, Dianne; Swayne, Deborah F. Interactive and Dynamic Graphics for Data Analysis (With R and GGobi). Springer-Verlag New York, 2007. DOI 10.1007/978-0-387-71762-3. ISBN 978-0-387-71761-6.
- Malakooti, B. Operations and Production Systems with Multiple Objectives. John Wiley & Sons, 2013.