skip to content

Boxplot

Rappel théorique

Le graphique boxplot permet de visualiser plusieurs paramètres de distribution d’une variable : la médiane, l’intervalle interquartile et la valeur maximale et minimale de la distribution. 

Il est beaucoup plus compact qu’un histogramme, mais ne présente pas autant de détails par rapport à la distribution. Par exemple, il est impossible de connaître la forme exacte de celle-ci.


 

La bordure supérieure de la boîte représente le 75e percentile et la bordure inférieure, le 25e percentile. 

La longueur verticale de la boite représente l’intervalle interquartile et la ligne centrale, la médiane. 

Notez que seule la lecture verticale fait du sens, il n’y a aucune information dans la largeur de la boite.

Dans un graphique boxplot, il y a deux catégories de valeurs anormales :

1) les outliers qui se situent entre 1,5 et 3 longueurs de boite à partir de la bordure inférieure ou supérieure de la boite (codés O),

2) les valeurs extrêmes qui se situent à plus de 3 longueurs de boite à partir des mêmes balises (codés *).  Comme il y a beaucoup de valeurs outliers dans le graphique précédent, l’option pourrait être désactivée pour rendre le graphique plus lisible.

 

Quelles informations retire-t-on du graphique ?

Nous pouvons avoir une idée de la tendance centrale des valeurs de chaque boite en observant la position de la médiane. Si la médiane n’est pas au centre, on peut juger de la symétrie de la distribution (aplatissement et asymétrie).

Par la longueur de la boite, il est possible d’estimer la variabilité des valeurs pour chaque sous-groupe.

Enfin, la longueur des « moustaches » donne une idée de la taille de la queue de la distribution.

   

 

Haut de page