Aller au contenu

Médiane (statistiques)

Un article de Wikipédia, l'encyclopédie libre.
Ceci est une version archivée de cette page, en date du 18 février 2023 à 13:04 et modifiée en dernier par Ramon Bada (discuter | contributions). Elle peut contenir des erreurs, des inexactitudes ou des contenus vandalisés non présents dans la version actuelle.

La médiane est un indicateur central, plus précisément une valeur de position. En statistique et en théorie des probabilités, la médiane est la valeur correspondant à la position centrale d'une série de valeurs ordonnées (croissantes ou décroissantes). Elle sépare les deux moitiés d'un ensemble de valeurs : échantillon, population, distribution de probabilités.

Les valeurs en question sont généralement des nombres précis. Mais elles peuvent aussi être des intervalles numériques (5-10, 20-30…) considérés par leurs positions ou leurs longueurs. Les valeurs peuvent même être qualitatives si elles sont susceptibles d'être ordonnées, ainsi dans un sondage d'opinion avec des options à degrés : peu, assez, très…

Le calcul de la médiane : méthodes courantes

Le calcul de la médiane implique trois étapes pour une série de valeurs : ordonner ces valeurs, établir leur position centrale, enfin la médiane associée à cette position.

1) Ordonner les valeurs d'une série

Les valeurs sont généralement ordonnées par ordre croissant. Si c'est par ordre décroissant, la médiane reste la même pour autant. D'autres critères d'ordonnancement seraient possibles (croissance et décroissance alternatives, etc.), même l'absence de critères (hasard). Mais cela n'aurait guère d'intérêt, empêcherait en particulier toute comparaison de la médiane avec la moyenne arithmétique : un autre indicateur central très utilisé.

Considérons cette série de 9 nombres entiers relatifs : +6, –5, +1, –5, –12, +390, +89 (+ est souvent omis). Elle se présentera ainsi par ordre croissant : –12, –5, –5, +1, +6, +89, +390. Les deux nombres identiques (–5) sont bien sûr contigus.

2) Position centrale des valeurs d'une série

Une fois les valeurs ordonnées (supra), leur position centrale est établie ainsi pour le nombre N des valeurs de la série : (N / 2) + 0,5. Si N est impair, la position centrale sera donc un nombre entier. Mais avec N pair, le nombre en question sera décimal (dixième 5).

Reprenons la série précédente, une fois ordonnée : –12, –5, –5, +1, +6, +89, +390. Comportant 7 valeurs (nombre impair), sa position centrale est 4 avec la formule indiquée. Elle correspond donc à +1 : 4e nombre de la série.

Si cette série ne comportait que 6 valeurs (nombre pair), par exemple en supprimant +390, la position centrale serait par contre 3,5. Elle impliquerait alors –5 et +1 : 3e et 4e nombres.

Cas particulier – Si la série comporte un nombre infini ∞ (cardinal) de valeurs, la position centrale (ordinale) de ces valeurs ne peut être établie. La formule « (∞ / 2) + 0,5 » aboutirait en effet à ∞, mais ce résultat ne correspond à aucune position dans une série de valeurs.

3) Médiane associée à la position centrale

Lorsque la position centrale correspond à une seule valeur, la médiane est cette valeur même. Dans la série de 7 valeurs (supra), la médiane est donc +1 (position centrale 4) : 3 valeurs se trouvent avant (–12, –5, –5) et 3 sont positionnées après (+6, +89, +390).

Avec une position centrale impliquant deux valeurs, la médiane est plus problématique. Dans la série de 6 valeurs (supra), la position centrale 3,5 implique les nombres –5 et +1. On pourrait alors penser que n'importe quel nombre entre –5 et +1 (exclus) est la médiane : 3 se trouveraient avant (–12, –5, –5) et 3 seraient positionnés après (+1, +6, +89).

Remarquons toutefois que la position centrale 3,5 est la moyenne arithmétique des positions 3 et 4. Il est alors logique de faire aussi la moyenne des nombres associés à ces deux positions (–5 et +1) pour établir la médiane : –2 en l'occurrence.

Cas particulier – Si la série comporte deux valeurs seulement, la médiane est toujours identique à la moyenne arithmétique des valeurs. Nous sommes en effet dans le cas précédent, avec la médiane identique à la moyenne des deux nombres encadrants.

La médiane avec des nombres cumulés

Il peut arriver que des effectifs (souvent entiers) ou des proportions (souvent en %) soient indiqués pour les valeurs d'une série. Sa médiane pourrait quand même être établie comme précédemment, en répétant chaque valeur autant de fois que nécessaire. Mais pour aller plus vite, les effectifs ou les proportions en question sont cumulés.

Considérons par exemple un mini-sondage auprès de 50 utilisateurs de Wikipédia. En classant leurs réponses par satisfaction croissante, 7 utilisateurs se déclarent très insatisfaits, 11 plutôt insatisfaits, 20 plutôt satisfaits, 12 très satisfaits. En suivant le même ordre, les nombres cumulés des utilisateurs sont successivement 7, 18, 38, 50. Le nombre cumulé final (50) est alors divisé par 2, ce qui fait 25. Ce nombre n'est pas encore atteint avec les utilisateurs plutôt insatisfaits (nombre cumulé 18), mais se trouve par contre dépassé avec ceux plutôt satisfaits (nombre cumulé 38). Cette dernière valeur est donc la médiane.

Si le nombre cumulé d'une valeur de cette série atteignait juste 25, la médiane serait située entre cette valeur et la suivante dépassant 25 en nombre cumulé. On dirait par exemple que les utilisateurs sont plutôt insatisfaits (nombre cumulé 25) à plutôt satisfaits (nombre cumulé 40). Si ces deux valeurs étaient numériques, il faudrait faire leur moyenne arithmétique : étape 3 de la méthode générale (supra).

Le calcul de la médiane : méthodes complexes

Utilisation des algorithmes

La complexité de l'algorithme de calcul de la médiane est la complexité de l'algorithme de tri utilisé, soit au mieux O(n log n).

Il existe des algorithmes de complexité linéaire (en O(n)), donc plus performants[1]. Il s'agit d'algorithmes permettant d'établir le K-ième élément d'une liste de N éléments (voir Algorithme de sélection) : K = N / 2 pour la médiane. Ce sont des adaptations des algorithmes de tri, mais plus performants toutes les valeurs ne sont pas considérées. On peut par exemple utiliser l'algorithme diviser pour régner en seulement O(N) opérations ; c'est le cas de l'algorithme quickselect, variation du Tri rapide (quicksort), qui est en général en O(N) mais peut être en O(N2) dans le pire des cas.

Dans la pratique, si l'on cherche la médiane d'une liste de N entiers et si l'on a la chance de constater que la valeur maximale M est inférieure à N2, cette constatation coûtant O(N)), le tri par comptage est très facile. Son coût est alors de O(M) opérations, permettant d'obtenir la médiane en moins de O(N2) opérations. Ce cas s'applique en particulier au cas des notes sur 20 (sans décimales) d'une classe de plus de 5 élèves (5 au carré est supérieur à 20).

La médiane dans les distributions de probabilités

Pour toutes distributions de probabilités réelles, la médiane M satisfait l'égalité :

c'est-à-dire en termes de fonction de répartition :

Ainsi pour une distribution de probabilités diffuse (fonction de répartition continue) :

La médiane dans certaines distributions

Pour toutes les distributions symétriques, la médiane est égale à l'espérance mathématique.

Comparaisons entre la médiane et la moyenne arithmétique

Médiane et moyenne : deux exemples

La médiane et la moyenne arithmétique sont des indicateurs de tendance centrale présentant chacun des avantages et des inconvénients selon les buts recherchés. La médiane a l'avantage d'être applicable à des valeurs qualitatives, comme il a été vu avec l'exemple plus haut (sondage) ; ce n'est pas le cas de la moyenne, à moins que les valeurs qualitatives reçoivent des équivalents numériques. Mais la médiane permet surtout de minimiser l'impact des valeurs extrêmes et aberrantes dans un sens ou l'autre, ce que ne fait pas la moyenne arithmétique : en voici deux exemples…

  • Prenons d'abord l'exemple des revenus mensuels dans deux pays (A et B), en comparant les résultats obtenus avec la moyenne et la médiane…

Dans le pays A, assez égalitaire après redistribution fiscale, un tiers de la population active perçoit 4 500 euros par mois, le deuxième tiers 6 000 euros, le dernier tiers 7 500 euros. La moyenne et la médiane sont alors identiques : 6 000 euros par mois.

Mais dans le pays B, bien plus inégalitaire, le tiers des actifs perçoit 2 000 euros seulement par mois, le deuxième tiers 4 000 euros, le dernier tiers 12 000 euros. La moyenne des revenus est alors la même que pour le pays A (6 000 euros), mais la médiane nettement inférieure par contre : 4 000 euros contre 6 000. Il est alors évident que la médiane indique beaucoup mieux les revenus que la moyenne arithmétique pour la plupart des habitants ! Cet exemple n'est pas caricatural car les inégalités de revenus sont souvent bien plus fortes. Une analyse fine des revenus, par dixièmes de la population par exemple, le montrerait clairement. Dans le pays B, un tiers de la population perçoit deux tiers de la richesse nationale.

  • Voyons un autre exemple, avec 20 personnes ayant chacune 5 euros dans sa poche. Par application de la méthode générale (supra), la médiane est alors 5 euros comme la moyenne arithmétique. Si l'on rajoute à la fin de cette série une personne possédant 10 000 euros (ordre croissant), la médiane reste la même (5 euros) mais la moyenne passe à 480,95 euros. On peut considérer dans cet exemple que la moyenne est un indicateur plus fin que la médiane. Mais elle accorde aussi une importance démesurée à la fortune d'une seule personne sur 21 !

La médiane et la moyenne se complètent beaucoup plus qu'elles ne s'opposent dans les deux exemples précédents. La médiane exprime surtout la caractéristique générale d'une série de valeurs, alors que la moyenne arithmétique est plus sensible aux cas particuliers.

Médiane et moyenne en statistique descriptive

Mode, médiane et moyenne de deux distributions différentes suivant la loi log-normale.

La médiane est principalement utilisée pour les distributions asymétriques, car elle les représente mieux que la moyenne arithmétique. Considérons l'ensemble { 1, 2, 2, 2, 3, 9 }. La médiane est 2, tout comme le mode, ce qui est une meilleure mesure de tendance centrale que la moyenne arithmétique égale à 3,166…

Le calcul de la médiane est couramment effectué pour représenter différentes distributions et elle est facile à comprendre, tout comme à calculer. Elle est aussi plus robuste que la moyenne en présence de valeurs extrêmes, comme il a déjà été vu.

Propriétés optimales des médianes et des moyennes

La médiane est aussi la valeur centrale minimisant la valeur moyenne des écarts absolus. Dans la série {1, 2, 2, 2, 3, 9} donnée auparavant, ce serait (1 + 0 + 0 + 0 + 1 + 7) / 6 = 1,5 plutôt que 1,944 à partir de la moyenne arithmétique. Celle-ci minimise par contre les écarts quadratiques. En théorie des probabilités, la valeur C qui minimise

est la médiane de la distribution des probabilités de la variable aléatoire X.

Inégalités impliquant les médianes et les moyennes

Pour les distributions continues de probabilités, la différence entre la médiane et l'espérance mathématique est au plus d'un écart type.

Variabilité de la médiane et indicateurs de dispersion

Lorsque la médiane est utilisée pour caractériser des valeurs, il existe diverses possibilités pour exprimer sa variabilité en statistique descriptive : l'étendue, l'écart interquartile et l'écart absolu.

Notes et références

Voir aussi

Articles connexes

Liens externes