Trimoyenne de Tukey

En statistiques, le trimoyenne (TM), ou trimoyenne de Tukey, est un indicateur de position de la moyenne d'une loi de probabilité définie comme une moyenne pondérée de la médiane de la distribution et de ses deux quartiles :

Les fondements de la trimoyenne font partie des enseignements d'Arthur Bowley, puis popularisés par le statisticien John Tukey dans son livre de 1977 [1] qui a donné son nom à un ensemble de techniques appelées analyse exploratoire des données.

Comme la médiane et le midhinge, mais contrairement à la moyenne de l'échantillon, il s'agit d'un L-estimateur statistiquement résistant avec un point de rupture de 25 %. Cette propriété bénéfique a été décrite comme suit :

« An advantage of the trimean as a measure of the center (of a distribution) is that it combines the median's emphasis on center values with the midhinge's attention to the extremes. »

— Herbert F. Weisberg, Central Tendency and Variability[2].

« Un avantage de la trimoyenne comme mesure du centre (d'une distribution) est qu'elle combine l'emphase de la médiane sur les valeurs centrales avec l'attention du midhinge aux extrêmes. »

— Central Tendency and Variability[2].

Efficacité

Malgré sa simplicité, la trimoyenne est un estimateur remarquablement efficace de la moyenne d’une population. Plus précisément, pour un grand ensemble de données (plus de 100 points) provenant d'une population symétrique, la moyenne des 20e, 50e et 80e centiles est le L-estimateur à trois points le plus efficace, avec une efficacité de 88 % [3]. Pour le contexte, la meilleure estimation ponctuelle par les L-estimateurs est la médiane, avec une efficacité de 64 % ou mieux (pour tout n), tout en utilisant deux points (pour un grand ensemble de données de plus de 100 points provenant d'une population symétrique), l'estimation la plus efficace est le milieu de gamme de 29 % (moyenne des 29e et 71e percentiles), qui a une efficacité d'environ 81 %. En utilisant des quartiles, ces estimateurs optimaux peuvent être approchés par le midhinge et la trimoyenne. L’utilisation de points supplémentaires permet d’obtenir une efficacité plus élevée, même s’il convient de noter que seuls trois points sont nécessaires pour une efficacité très élevée.

Voir aussi

Références

  1. (en) John Wilder Tukey, Exploratory Data Analysis, Addison-Wesley, (ISBN 0-201-07616-0, lire en ligne Inscription nécessaire)
  2. (en) H.F. Weisberg, Central Tendency and Variability, Sage University, (ISBN 0-8039-4007-6, lire en ligne)
  3. Evans 1955, Appendix G: Inefficient statistics, pp. 902–904.

Liens externes