Fréquence (statistiques)

Fréquence des traits de kanji

En statistique, on appelle fréquence absolue l'effectif des observations d'une classe et fréquence relative ou simplement fréquence, le quotient de cet effectif par celui de la population.

L'expression fréquence = valeur n'est jamais ambigüe. Si valeur est un nombre entier positif, il s'agit de la fréquence absolue, c'est-à-dire l'effectif de la classe. Si valeur est un nombre compris entre 0 et 1 ou un pourcentage, il s'agit de la fréquence relative.

Le calcul d'une fréquence permet des comparaisons entre des séries d'observations portant sur des populations inégalement nombreuses. L'expression en pourcentage facilite ces comparaisons[1].

Plus la population est nombreuse, plus la fréquence d'une observation se rapproche de la probabilité de cette observation.

Propriétés

La liste des fréquences s'appelle distribution des fréquences[2].

La somme de l'effectif de toutes les classes étant l'effectif de la population, la somme de leurs fréquences relatives est toujours égale à 1 (100%).

Il est possible de retrouver les effectifs d'une série statistique à partir de ses fréquences et de l'effectif de la population totale, aux arrondis près.

Précautions

Pour la détermination des fréquences, les observations doivent d'abord être divisées en classes. Pour que le résultat soit pertinent, il est nécessaire de choisir le critère de classement de telle sorte que l'effectif des classes soit suffisant. Si, en effet, l'effectif d'une classe est trop faible, une action marginale sur le critère de classement pourrait affecter le résultat.

Exemple :

Soit une population de 100 personnes ayant entre 18 et 26 ans, dont on veut établir la répartition des âges. Si on répartit la population par classe d'âge à 0,1 an près, certains dixièmes d'année auront un effectif de 0 ou 1, et certaines de ces valeurs pourraient changer selon l'origine de l'échelle des temps. On aurait alors deux résultats différents, bien qu'il n'y ait qu'une seule population. Il faut donc des classes d'âge adaptées.

Si on décide, par exemple, que la classe d'âge la moins nombreuse doit réunir au moins dix individus, on sera sans doute amené à des classes de deux ans.

Pour répondre à ce problème, on constitue souvent des classes définies de telle façon que leur fréquence soit déterminée à l'avance. Une telle classe, dont le critère s'adapte à la fréquence à obtenir, s'appelle un quantile. Quand la fréquence est un quart, c'est un quartile ; si c'est un dixième, un décile ; de même pour un centième, un centile. Avec cette méthode, le résultat de l'analyse statistique est le critère de classement[3].

Dans le résumé statistique d'une série d'observations, l'utilisation des fréquences et des pourcentages peut masquer un résultat non significatif. Pour être significative, une fréquence doit être égale à plusieurs fois l'inverse de l'effectif de la population.

Fréquences cumulées

Lorsqu'on constitue les classes à partir de variables quantitatives, on peut calculer des fréquences cumulées, qui sont celles de l'effectif de la classe constituée par la population dont l'indice est inférieur ou supérieur à une valeur.

La fréquence cumulée est égale à la somme des fréquences de toutes les classes qui la précèdent dans l'ordre de classement.

Ce calcul a l'avantage de réduire le nombre de classes dont l'effectif n'est pas significatif.

Fréquences de valeurs numériques discrètes

Lorsque la distribution de fréquences résume les observations pour des valeurs numériques discrètes, on peut en tirer la moyenne arithmétique de ces valeurs.

Pour une série statistique dont les valeurs sont données par : et les fréquences par : ,

la moyenne est donnée par : .

Sachant que , on constate que la moyenne calculée à partir des fréquences peut être vue comme une moyenne arithmétique pondérée : .

Exemple — longueur moyenne des mots à partir de la distribution des longueurs
La distribution des fréquences du nombre de lettres par mot de la langue française, établie sur une population des 228 mots de dix pages du Petit Robert, édition 1973, est donnée par le tableau :
Nombres de lettres 4 5 6 7 8 9 10 11 12 13 14 15 16
Fréquences
pourcentage 3 % 5 % 14 % 16 % 13 % 15 % 13 % 7 % 7 % 4 % n.s. 3 % n.s.
La longueur moyenne des mots est . Il y a ainsi 8,6 lettres en moyenne par mot (Dodge 2005, p. 48).

L'utilisation des pourcentages, arrondis à une précision qui tienne compte de l'effectif de la population, facilite les comparaisons.

Fréquences statistiques et probabilités

Plus la population est nombreuse, plus la fréquence d'une observation se rapproche de la probabilité de cette observation. Cette propriété, basée sur la loi des grands nombres, est utilisée dans de nombreux domaines. Par exemple, les compagnies d'assurance évaluent la probabilité d'un sinistre à partir de statistiques établies sur un grand nombre d'années et sur des populations nombreuses. Elles déterminent ainsi le coût d'assurance de ce risque.

La fréquence, obtenue par synthèse des observations, et la probabilité, basée sur le calcul des issues possibles d'une expérience, sont des notions différentes, mais qui reposent l'une et l'autre sur un calcul des proportions[4].

Malgré ce lien formel, la distinction entre les deux est capitale, en particulier lorsqu'on cherche à déterminer la probabilité d'un évènement à partir de sa fréquence dans un échantillon. La probabilité est la chance ou risque de voir se réaliser un évènement ; tandis que la fréquence est le rapport entre le nombre d'évènements effectivement réalisés et l'effectif de l'échantillon.

Lorsqu'on suppose que la fréquence mesurée sur un échantillon s'applique à la population entière, on l'utilise pour évaluer le nombre total d'évènements dans cette population, en appliquant à l'effectif total la proportion relevée dans l'échantillon.


Compléments

Bibliographie

Notes et références

  1. Reuchlin 1991, p. 47.
  2. Dodge 2005, p. 23 ; Reuchlin 1991, p. 47
  3. Reuchlin 1991, p. 70-71.
  4. Henri Rouanet, Idées force, Université Paris 5, 2004.

Liens internes