Tendência central

Em estatística, uma tendência central (ou, normalmente, uma medida de tendência central) é um valor central ou valor típico para uma distribuição de probabilidade.[1] As medidas de tendência central mais comuns são a média aritmética, a mediana e moda. Tendências centrais podem ser calculadas tanto para um número finito de valores quanto para uma distribuição teórica, a exemplo da distribuição normal. Ocasionalmente autores usam tendência central (ou centralidade), significando "a tendência de dados quantitativos de se agruparem ao redor de um valor central."[2][3] Tal significado pode ser esperado da definição usual das palavras tendência e centralidade no dicionário. Autores podem julgar se dados têm tendência central forte ou fraca se baseando na dispersão estatística, medida pelo desvio padrão ou algo similar.

O termo "tendência central" data do final de 1920.[3]

Medidas de tendência central

As seguintes medidas podem ser aplicadas para dados unidimensionais. Dependendo das circunstâncias, pode ser apropriado transformar os dados antes de calcular a tendência central. Exemplos são calcular quadrados de valores ou seus logaritmos. Uma transformação ser apropriada e o que deveria ser depende muito nos dados sendo analisados.

  • Média aritmética (ou simplesmente, média) - a soma de todas as medições divididas pelo número de observações no conjunto de dados.
  • Mediana [4]- A mediana, é uma medida de localização do centro da distribuição dos dados, definida do seguinte modo: ordenados os elementos da amostra, a mediana é o valor (pertencente ou não à amostra) que a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os outros 50% são maiores ou iguais à mediana.
  • Moda - O valor que aparece com maior frequência no conjunto de dados. Essa é a única medida de tendência central que pode ser usada com dados nominais, os quais tem atribuições de categoria puramente qualitativa.
  • Média geométrica - A raiz enésima(n) do produto dos n dados observados. Essa medida é válida apenas para os dados que foram medidos absolutamente em uma escala estritamente positiva.
  • Média harmônica - É o recíproco da média aritmética do recíproco dos valores dos dados. Essa medida também só é válida para dados que foram medidos absolutamente em uma escala estritamente positiva.
  • Média ponderada - Uma média aritmética que incorpora peso para os elementos.
  • Média truncada - A média aritmética dos valores dos dados depois de que um certo número ou proporção dos maiores e menores valores tenham sido descartados.
  • Média interquartílica - um tipo de média truncada.
  • Alcance médio - A média aritmética dos valores máximo e mínimo do conjunto de dados.
  • Articulação média - a média aritmética dos dois quartis.
  • Média tripla - A média ponderada da mediana e dois quartis.
  • Média winsorizada - Uma média aritmética na qual valores extremos são substituídos por valores mais próximos da mediana.

Qualquer uma das medidas acima podem ser aplicadas para cada uma das dimensões de dados multidimensionais, mas os resultados podem não ser invariantes a rotações do espaço multidimensional. Em adição, existe a

  • Mediana geométrica - que minimiza a soma de distâncias para os pontos de dados. Isso se assemelha à mediana quando aplicada a dados unidimensionais, mas não é o mesmo que obter a mediana de cada dimensão independentemente. Ela não é invariante a diferentes mudanças de escala das diferentes dimensões.

A Média quadrática (também conhecida como média da raíz quadrada) é útil na engenharia, mas não é muito usada em estatística. Isso se dá porque ela não é um bom indicador do centro de distribuição quando a distribuição incluí valores negativos.

Soluções para problemas variacionais

Várias medidas de tendência central podem ser caracterizadas como a solução de um problema variacional. No sentido do cálculo das variações, visa minimizar a variação a partir do centro. Ou seja, dada uma medida de dispersão estatística, alguém pede uma medida de tendência central, que minimiza a variação: de tal forma que a variação do centro é mínima entre todas as opções de centro. Em resumo, "dispersão precede localização". No sentido emLp espaços, a correspondência é:

Lp dispersão tendência central
L1 desvio médio absoluto mediana
L2 desvio padrão média
L desvio máximo alcance médio

Assim, o desvio padrão sobre a média é menor do que o desvio padrão sobre qualquer outro ponto, e o desvio máximo sobre o alcance médio é menor do que o desvio máximo sobre qualquer outro ponto. A singularidade desta caracterização da média decorre da otimização convexa. Na verdade, para um dado conjunto de dados (fixo) x, a função:

representa a dispersão sobre um valor constante c em relação à normal L 2. Como a função ƒ 2 é uma função coercitiva estritamente convexa, o minimizador existe e é único.

Note que a mediana neste sentido não é geralmente única, e na verdade qualquer ponto entre os dois pontos centrais de uma distribuição discreta minimiza o desvio médio absoluto. A dispersão na norma L1, dada por:

não é estritamente convexa, onde convexividade estrita é necessária para garantir singularidade do minimzador. Apesar disso, o minimizador é singular para a norma L.

Relações entre média, mediana e moda

Para distribuições unimodais os seguintes limites são conhecidos e nídidos:[5]

onde μ é a média, ν é a mediana, θ é a moda, e σ é o desvio padrão.

Para qualquer distribuição,[6][7].

Referências

  1. Weisberg H.F (1992) Central Tendency and Variability, Sage University Paper Series on Quantitative Applications in the Social Sciences, ISBN 0-8039-4007-6 p.2
  2. Dodge, Y. (2003) The Oxford Dictionary of Statistical Terms, OUP for International Statistical Institute. ISBN 0-19-920613-9 (entry for "central tendency")
  3. a b Upton, G.; Cook, I. (2008) Oxford Dictionary of Statistics, OUP ISBN 978-0-19-954145-4 (entry for "central tendency")
  4. «Moda e Mediana». Só Matemática. Consultado em 28 de novembro de 2019 
  5. Johnson NL, Rogers CA (1951) "The moment problem for unimodal distributions". Annals of Mathematical Statistics, 22 (3) 433–439
  6. Hotelling H, Solomons LM (1932) The limits of a measure of skewness. Annals Math Stat 3, 141–114
  7. Garver (1932) Concerning the limits of a mesuare of skewness. Ann Math Stats 3(4) 141–142