Estatística multivariável
A estatística multivariável é o ramo da estatística que lida com vetores aleatórios, vetores que contém uma ou mais variáveis aleatórias, e as suas aplicações em áreas de ciência e tecnologia, como a econometria e a taxonomia. Na estatística multivariável, usam-se modelos estatísticos para explicar uma variável aleatória. Estes modelos baseia-se no comportamento de outras variáveis. Os vetores aleatórios servem para construir tais modelos.
Por exemplo, na física, onde os modelos podem condicionar os valores das variáveis, podem ocorrer erros causados por variáveis não incluídas no modelo ou por processos puramente aleatórios, fundamentando o uso de modelos estatísticos para estimar parâmetros.
Os métodos estatísticos multivariados e ferramentas de análise estatística multivariada estudam o comportamento de duas ou mais variáveis simultaneamente. São utilizados principalmente para encontrar a variável menos representativa e eliminá-la, simplificando modelos estatísticos, em que o número de variáveis dificulta a compreensão da relação entre os vários grupos de variáveis, ou seja, caos determinístico. Alguns dos métodos mais utilizados são a regressão linear e análise discriminante.
Resumindo, a estatística multivariável tem dois objetivos:
- Fornecer métodos para a análise de uma amostra multivariada que a análise estatística de uma variável é incapaz de alcançar;
- Ajudar o analista a tomar decisões no contexto diante da informação disponível para o conjunto de dados analisados.
Existem diferentes modelos e métodos, com diferentes hipóteses para a análise:
Métodos de unidade:
- Um estudo de regressão permite-nos determinar a probabilidade com que uma variável pode ser prevista com base em outras variáveis. Ela é usada para tentar prever o comportamento das variáveis, tais como os benefícios do investimento em marketing e custos de produção.
- A análise de correlação canônica tenta analisar a possível existência de uma relação entre dois conjuntos de variáveis.
- A análise discriminante pode dar-nos uma função discriminante, que pode ser usada para distinguir entre dois ou mais grupos e, assim, tomar decisões.
- A análise multivariada da variância (MANOVA), estendendo-se à análise de variância (ANOVA), cobrindo os casos com mais do que uma variável dependente, sem ser capaz de simplificar o modelo conhecido.
- A regressão logística permite calcular e testar a influência de uma variável sobre outra, ou quando a variável dependente é de resposta dicotómica.
Métodos de interdependência:
- A análise de componentes principais procura determinar o menor conjunto de variáveis que resumem o sistema original.
- A análise de cluster classifica uma amostra de entidades (físicas ou variáveis) em um pequeno número de grupos, de modo que as observações dentro de um grupo são muito semelhantes entre si e muito diferentes do resto. Ao contrário de análise discriminante, o número e composição de tais grupos é desconhecido.
- A iconografia das correlações.
Métodos estruturais:
- Os modelos de equações estruturais analisam as relações entre um conjunto de variáveis representadas por sistemas de equações simultâneas que assumem que alguns deles (chamado de construtos) são medidos com o erro de outras variáveis observáveis chamados indicadores. Os modelos consistem, portanto, de duas partes: um modelo estrutural que especifica as relações de dependência entre os construtos latentes e um modelo de medida que especifica como os indicadores se relacionam com seus construtos correspondentes.
História
Encontram-se exemplos na edição de 1968 de An Introduction to Multivariate Analysis,[1] destacando testes hipotéticos via o teste de rácio potencial e as propriedades das funções estatísticas: admissibilidade, iconografia e análise de clusters.[2][3]
Software & Ferramentas
Existe um grande número de aplicativos e ferramentas para a estatística multivariável, incluindo:
- Calc
- SAS
- SciPy para Python
- SPSS
- Stata
- STATISTICA
- TMVA - Toolkit para Análise de dados multivável em ROOT
- The Unscrambler
- SmartPLS - Partial Least Square
- MATLAB
Referências
- ↑ Theodore Wilbur Anderson (1958) An Introduction to Multivariate Analysis, New York: Wiley ISBN 0471026409; 2e (1984) ISBN 0471889873; 3e (2003) ISBN 0471360910
- ↑ Sen, Pranab Kumar; Anderson, T. W.; Arnold, S. F.; Eaton, M. L.; Giri, N. C.; Gnanadesikan, R.; Kendall, M. G.; Kshirsagar, A. M.; Mardia, K. V. (junho de 1986). «Review: Contemporary Textbooks on Multivariate Statistical Analysis: A Panoramic Appraisal and Critique». Journal of the American Statistical Association. 81 (394): 560–564. ISSN 0162-1459. JSTOR 2289251. doi:10.2307/2289251(Pages 560–561)
- ↑ Schervish, Mark J. (novembro de 1987). «A Review of Multivariate Analysis». Statistical Science. 2 (4): 396–413. ISSN 0883-4237. JSTOR 2245530. doi:10.1214/ss/1177013111
Bibliografia
- Abraira Santos, Víctor. Métodos Multivariantes en bioestadística. [S.l.: s.n.]
- Cuadras, Carles. Nuevos métodos de análisis multivariante (PDF). [S.l.]: CMC Editions