Une m´thode factorielle pour traiter les e donn´es didactiques e Ali Kouani, S. El Jamali et M.Talbi
Rapports de Stage : Une m´thode factorielle pour traiter les e donn´es didactiques e Ali Kouani, S. El Jamali et M.Talbi. Rechercher de 53 000+ Dissertation Gratuites et Mémoiresremier groupe. Peut-on en conclure e que les deux groupes sont constitu´s d’´l´ments homog`nes ? Sinon, comment les d´celer dans e ee e e le cas o` l’on traite plusieurs variables avec un effectif d’´l`ves assez grand ? u ee Dans une situation d’orientation ou de passage d’´l`ves, la moyenne pond´r´e de toutes les notes ee ee dans les diff´rentes disciplines enseign´es est une variable qui r´sume ou synth´tise l’ensemble e e e e dans le sens que : si un ´l`ve a obtenu 18 de moyenne, il a certainement de tr`s bonnes notes ee e dans toutes les mati`res. Au contraire, un autre qui a obtenu 2 de moyenne n’a certainement e bien r´ussi aucune discipline. Donc, la pertinence d’une mˆme variable synth´tique varie selon e e e les situations ´tudi´es. Pour illustrer ce propos, consid´rons le tableau suivant : e e e
Dans ce tableau : 6 individus sont d´crits par deux notes (Ni , Nj ). e Cas 1 : la moyenne 1 synth´tise bien les notes N1 et N2 ; ce n’est pas le cas de leur diff´rence e e Ecart 1 (= N2 − N1 ). Cas 2 : la moyenne 2 ne synth´tise pas N 3 et N 4 ; ce n’est pas le cas de leur diff´rence Ecart 2 e e (= N4 − N3 ).
A. Kaouani et al., Radisma, num´ro 2, 2007 e
3
Donc, devant une s´rie de donn´es, quelles variables compl´mentaires peut-on choisir pour e e e synth´tiser au mieux l’information port´e par l’ensemble des variables ? e e
Dans la pratique enseignante, l’enseignant cherche toujours ` visualiser graphiquement les a r´sultats de ses ´l`ves pour les interpr´ter. Mais, pour analyser les liaisons entre une s´rie e ee e e de variables, il va se trouver devant un nombre assez grand de graphiques ; nombre qui rend presque impossible l’interpr´tation. En effet avec 10 variables, il aura 45 graphiques de liaisons e et 15 ( ?) le nombre devient alors 105 !
Par cons´quent, est- il possible de trouver une repr´sentation plane de l’ensemble des varie e ables dans un espace r´duit permettant une visualisation des liens num´riques et de d´celer des e e e facteurs latents ? Le but de cet article est de pr´senter dans sa premi`re partie une description math´matique e e e de la m´thode exploratoire Analyse en Composantes Principales (ACP). e La seconde partie sera consacr´e ` l’application de l’ACP ` un cas r´el (un tableau des notes e a a e des ´tudiants) o` on tˆchera de voir ce que l’ACP outil exploratoire (cf. [3]) peut apporter e u a comme ´l´ments de r´ponse ` des questions de type (cf. [2]). ee e a Ressemblances entre individus : Quels sont les individus qui se ressemblent ? Quels sont ceux qui sont diff´rents ? e Existe -t-il des groupes homog`nes d’individus ? Si oui, peut-on mettre alors en ´vidence une e e typologie des individus ? Liaisons entre variables : Quelles sont les variables qui sont li´es positivement entre elles ? e Quelles sont celles qui s’opposent (li´es n´gativement) ? e e Existe-t-il des groupes de variables corr´l´es entre elles ? ee Si oui, peut-on alors mettre en ´vidence une typologie des variables ? e Quelles sont les variables qui caract´risent un mˆme groupe d’individus ? e e Est- il possible de trouver une repr´sentation plane de l’ensemble des variables dans un espace e r´duit permettant une visualisation des liens num´riques d’une part et de d´celer des facteurs e e e latents d’autre part?
Quant ` la troisi`me partie de cet article, elle r´sume l’objet de l’ACP comme elle pose des a e e questions.
A. Kaouani et al., Radisma, num´ro 2, 2007 e
4
2
Pr´sentation et description de la m´thode factorielle : e e Analyse en composantes principales (ACP)
On dispose d’un tableau des notes des ´tudiants de deux fili`res Sciences Math´matiques (SM) e e e et Sciences Math´matiques et Informatique (SMI) obtenues dans le premier semestre S1 de e l’ann´e universitaire 2003 /2004 dans les disciplines suivantes : e
L’ensemble des donn´es peut ˆtre sch´matis´ par une matrice X ` n lignes et p colonnes. e e e e a
Si X est le tableau (nxp) des notes, les colonnes repr´senteront les variables xi (les disciplines), e les lignes repr´senteront les individus ej ( ´tudiants ), alors que xij est la note obtenue par e e l’´tudiant i dans la discipline j. e Dans une optique purement descriptive on identifiera une variable ` la colonne de X correspona dante : une variable n’est rien d’autre que la liste des n valeurs qu’elle prend sur les n individus : X1j X2j Xj = . . . Xnj
A. Kaouani et al., Radisma, num´ro 2, 2007 e On identifiera de mˆme l’individu i au vecteur ei ` p composante dont le transpos´ est : e a e ei = (xi1 , xi2 , . . . , xi1 )
5
2.1
Espace des individus
Chaque individu ei sera consid´r´ comme un ´l´ment d’un espace vectoriel F (espace des indiee ee vidus). L’ensemble des n individus est un nuage de points de F dont le barycentre est le point g d´fini par : e g = (x1 , x2 , . . . , xp ), o` xp est la moyenne aritm´tique de xp . u e Le point g est appel´ parfois : point moyenne du nuage ou centre de gravit´. e e L’espace F est muni d’une structure euclidienne afin de pouvoir d´finir des distances entre e individus ei et ej . On utilisera la formulation g´n´rale suivante : la distance entre deux individus e e ei et ej est d´finie par la forme quadratique : e d2 (ei ; ej ) = (ei ; ej ) M (ei ; ej ), o` M est une matrice sym´trique de taille p d´finie positive et (ei ; ej ) est le transpos´ du u e e e vecteur (ei ; ej ). L’espace des individus est donc muni du produit scalaire : ei, ej = ei M ej . Le choix de M d´pend de l’utilisateur. En pratique les m´triques usuelles en ACP sont en e e nombre r´duit : ` part la m´trique M = I (Matrice identit´ de rang p ) ce qui revient ` utiliser e a e e a le produit scalaire usuel, la m´trique la plus utilis´e ( et qui est souvent l’option par d´faut des e e e logiciels d’ACP ) est la m´trique diagonale des inverses des variances : e
Ce qui revient ` diviser chaque caract`re par son ´cart-type : entre autres avantages, la a e e distance entre deux individus ne d´pend plus des unit´s de mesure puisque les nombres xij /sj e e
A. Kaouani et al., Radisma, num´ro 2, 2007 e
6
sont sans dimension, ce qui est tr`s utile lorsque les variables ne s’expriment pas avec les mˆmes e e unit´s. e Surtout, cette m´trique donne ` chaque caract`re la mˆme importance quelle que soit sa dispere a e e sion ; l’utilisation de m´trique M = I conduirait ` privil´gier les variables les plus dispers´es, e a e e pour lesquelles les diff´rences entre individus sont plus fortes, et ` n´gliger les diff´rences entre e a e e les autres variables.
Remarque : Souvent, les donn´es brutes xij sont remplac´es par les donn´es de la forme e e e j )/s (dite centr´e r´duite) o` xj est la moyenne de la variable xj et s est l’´cart type e e u e (xij − x j j de la variable xj . Le centrage permet de comparer les dispersions par rapport ` un point de a r´f´rence unique (la moyenne, qui vaut z´ro pour la variable apr`s centrage). En r´duisant les ee e e e variables, on les exprime toutes en unit´s d’´cart - type, et on leur donne une variance ´gale ` 1. e e e a
2.2
Espace des variables
Chaque variable X i est une liste de n valeurs num´riques, qui peut ˆtre consid´r´e comme un e e ee i vecteur X d’un espace E ` n dimensions appel´ espace des variables. Pour ´tudier la proximit´ a e e e des variables entre elles, on munit E d’une m´trique. e G´n´ralement, on d´finit le produit scalaire entre deux variables par : e e e X i , X k = X i DX k avec D = L’angle θjk entre deux variables est donn´ par : e cos θjk = Sjk X i, X k = . j k x x Sj S k 1 I. n
Dans le cas de variables centr´es r´duites on a alors : e e Ce produit scalaire est la covariance sjk car : Xi − Xi Xk − Xk , si sk Et Var De plus, Xi − Xi si 1 = n
n
1 = n
n
j=1
Xij − X i Xkj − X k si sk
j=1
Xij − X i Xij − X i = si si
Xi − X Xi − X , si si
Xi − X = si
2
.
D
A. Kaouani et al., Radisma, num´ro 2, 2007 e
7
Xi − X si
2
D
1 = 2 si
1 n
n
Xij − X
j=1
...