La boîte à moustaches de TUKEY un outil pour initier à la Statistique
Dissertation : La boîte à moustaches de TUKEY un outil pour initier à la Statistique. Rechercher de 53 000+ Dissertation Gratuites et Mémoiresoi la valeur 1.5 pour déterminer les moustaches?........................................................................ 6 3.6 Représentations variées des boîtes à moustaches .................................................................................... 7 4. Les boîtes à moustaches juxtaposées.............................................................................................................. 7 4.1 Comparaisons de distributions selon des groupes ................................................................................... 7 4.2 Utilisation des boîtes à moustaches pour visualiser des séries chronologiques ....................................... 8 5. Découvertes par l’élève des propriétés de la médiane et de la moyenne ....................................................... 9 6. Réalisations informatiques des boîtes à moustaches.................................................................................... 10 7. Autres diagrammes utiles pour représenter une distribution ....................................................................... 11 Annexe : Les données ....................................................................................................................................... 12 Références ........................................................................................................................................................ 13
1
MATISSE-CNRS UMR8595, Maison des Sciences Economiques, 106-112 Boulevard de l’Hôpital, 75013 Paris.
© Boite-a-moustaches.pdf / Monique Le Guen /
page 1/15
1. Introduction
La boîte à moustaches une traduction de Box & Whiskers Plot, est une invention de TUKEY (1977) pour représenter schématiquement la distribution d’une variable. Cette représentation graphique peut être un moyen pour approcher les concepts abstraits de la statistique, si l’on pratique son usage sur différents jeux de données. Le terme spécifique Box & Whiskers Plot et le terme générique Box Plot recouvrent une grande variété de diagrammes en forme de boîtes qui se différencient par leur construction, leurs interprétations, et leurs usages. E. HORBER qui a effectué des recherches bibliographiques sur ce thème a repéré une soixantaine de formes et de constructions différentes. Le lecteur pourra se faire une opinion en lisant sa note disponible sur Internet2 . La conclusion est que le vocabulaire anglo-saxon n’est pas unifié, les termes sont souvent employés les uns pour les autres. Pour les francophones se rajoute la (ou une) traduction. Ainsi la traduction de Box & Whiskers Plot par boîte à moustaches n’est pas unique. Nos amis Québécois disent boîte à moustaches. Nos collègues de l’Association MIRAGE utilisent plus volontiers le terme Boîte à Pattes. Il fallait choisir. Nous avons choisi dans cet article, la traduction boîte à moustaches et nous allons décrire la boîte à moustaches la plus couramment utilisée par les explorateurs de données. C’est aussi celle que l’on trouve dans la plupart des logiciels statistiques. Tout d’abord nous montrons une représentation3 d’une boîte à moustaches, construite sur un jeu de données. L’interprétation d’une boîte à moustaches nécessite un apprentissage aussi nous détaillons comment lire et interpréter ce graphique. Nous montrons comment les élèves peuvent découvrir, en explorant des données, certaines propriétés de la médiane et de la moyenne. En références nous donnons des adresses Internet pour réaliser informatiquement différentes formes de boîtes à moustaches et de Box Plots.
2. Les données
Pour chaque élève d’une classe mixte, d’effectif 59, sont collectés son poids en kilogrammes, sa taille exprimée en centimètres et son sexe (code 1 pour masculin, code 2 pour féminin), cf. Annexe. Le fichier des données comporte 3 variables POIDS, TAILLE et SEXE, et 59 observations (élèves) réparties selon le sexe (23 garçons et 36 filles). Cet exemple est inspiré des données de BATANERO, ESTEPA & GODINO (1991) disponibles également sur Internet4. Pour de jeunes élèves, en collège et lycée, les ouvrages de ROSSMAN A. J. (1995, 2001) rassemblent de nombreux jeux de données et exemples d’activités pour découvrir la Statistique.
2 3
Site Internet : http://www.unige.ch/ses/sococ/mirage/ dans la rubrique Nouvelles Juin 2001. Les graphiques ont été réalisés avec le logiciel SAS® , par la Procédure BoxPlot ou par le module SAS/INSIGHT.
4
Site Internet : http://www.ugr.es/~batanero/ListadoEstadistica.htm
© Boite-a-moustaches.pdf / Monique Le Guen /
page 2/15
3. La boîte à moustaches La représentation graphique de la boîte à moustaches est mystérieuse lorsqu’on la découvre pour la première fois, cf. Graphique 1: Boîte à moustaches de la variable POIDS. Pour lire et interpréter, il est nécessaire de connaître sa construction. La boîte à moustaches utilise 5 valeurs qui résument des données : le minimum, les 3 quartiles Q1, Q2 (médiane), Q3, et le maximum.
Poids atypique Poids=93
Q3 =67 Q2 =60 Q1 =53
Graphique 1 : Boîte à moustaches de la variable POIDS Les quartiles Q1, Q2, Q3 sont les éléments essentiels de ce graphique. Après une présentation des quartiles sur un exemple simple, nous détaillerons les étapes de la construction des quartiles et de l'écart interquartile qui s’en déduit.
3.1 Les quartiles et l’écart interquartile
Pour illustrer notre propos, nous montrons sur un cas très simple5 comment sont calculer les quartiles. Soit la série des 9 valeurs ordonnées : 1 , 3 , 4 ,5 , 6 ,7 , 9 ,10, 15
La médiane Q2 partage la série en deux groupes d’effectif égaux, ce qui donne : Q2=6. Le Quartile Q1 repartage le groupe du bas (5 valeurs inférieures) en deux groupes d’effectif égaux, ce qui donne : Q1=4. Le Quartile Q3 repartage le groupe du haut (5 valeurs supérieures) en deux groupes d’effectif égaux, ce qui donne : Q3=9. Selon que l’effectif n des valeurs est pair ou impair, on procédera différemment pour évaluer les quartiles. Procédure: 1- Classer les n données par ordre croissant. 2- Diviser les données en 2 groupes de tailles égales. On obtient le groupe du bas et le groupe du haut, chacun contenant 50% des observations. Si n est pair la médiane est la moyenne des 2 points milieu. Si n est impair la médiane est le point milieu.
5
En pratique le calcul des quartiles s’effectue lorsque le nombre d’observations est plus important.
© Boite-a-moustaches.pdf / Monique Le Guen /
page 3/15
Dans ce cas il faut, pour permettre les calculs qui vont suivre, reproduire la valeur de ce point dans les 2 groupes. 3- Calculer à nouveau la médiane du groupe du bas. On obtient le quartile Q1, qui correspond à 25 % des observations. 4- Calculer à nouveau la médiane du groupe du haut. On obtient le quartile Q3, qui correspond à 75 % des observations. n/2 n/2
Groupe du bas (50% des effectifs)
Groupe du haut (50% des effectifs)
n/4
n/4
n/4
n/4
L’écart interquartile (InterQuartile Range) est utilisé comme indicateur de dispersion. Il correspond à 50% des effectifs situés dans la partie centrale de la distribution. Pour la variable POIDS l’écart interquartile vaut 14, cf. Graphique 1.
Ecar t Inter quartile = Q3−Q1=67 −53=14
3.2 Lecture d’une boîte à moustaches On repère sur la boîte à moustaches d’une variable: • l’échelle des valeurs de la variable, située sur l’axe vertical. • la valeur du 1er quartile Q1 (25% des effectifs), correspondant au trait inférieur de la boîte, • la valeur du 2ème quartile Q2 (50% des effectifs), représentée par un trait horizontal à l’intérieur de la boîte, • la valeur du 3ème quartile Q3 (75% des effectifs), correspondant au trait supérieur de la boîte, • les 2 « moustaches» inférieure et supérieure, représentées ici par les petits rectangles verticaux de part et d’autre de la boîte. Ces 2 moustaches, délimitent les valeurs dites adjacentes qui sont déterminées à partir de l’écart interquartile (Q3-Q1). • les valeurs dites extrêmes, atypiques, exceptionnelles, (outliers) situées au-delà des valeurs adjacentes sont individualisées. Elles sont représentées par des marqueurs (carré, ou étoile, etc.).
3.3 Délimitation des longueurs des moustaches (valeurs adjacentes) L’extrémité de la moustache inférieure est la valeur minimum dans les données qui est supérieure à la valeur frontière basse : Q1 -1,5*(Q3-Q1) soit 32 pour la variable POIDS L’extrémité de la moustache supérieure est la valeur maximum dans les données qui est inférieure à la valeur frontière haute
...