Analyse discriminante
Dissertations Gratuits : Analyse discriminante. Rechercher de 53 000+ Dissertation Gratuites et Mémoiresisant à révéler l'existence de groupes dont on ne connaîtrait pas déjà l'existence avant d'entreprendre l'analyse. L'un des grands défis de l'analyse discriminante concerne justement la sélection des variables discriminatrices; c’est le but de la perspective descriptive.
La perspective descriptive
D'un point de vue purement descriptif l'analyse discriminante est tout à fait identique à l'analyse de variance multivariée. En effet, si vous inversez simplement les catégories de variables X et Y (indépendantes vs dépendantes), vous obtenez deux analyses statistiques absolument équivalentes en termes de modèles statistiques sous-jacents. On pourrait dire que l'analyse discriminante vise à utiliser des combinaisons de variables X1, X2, X3 pour prédire l'appartenance à des groupes définis par les niveaux d'une variable dépendante Y, alors qu'en analyse de variance multivariée, on utilise un facteur de groupes X (variable indépendante) pour vérifier si ces groupes sont différents les uns des autres sur une combinaison de variables dépendantes Y1, Y2, Y3.
Étant donné que plusieurs variables X sont disponibles pour discriminer les groupes et que ces variables peuvent être plus ou moins corrélées entre elles, l'analyse discriminante procédera au calcul de scores composites un peu de la même façon que nous l'avions décrit dans la section traitant de l'analyse de corrélation canonique. Ces scores composites issus des variables prévisionnelles X sont d'ailleurs appelés ici des fonctions canoniques discriminantes. Les fonctions canoniques discriminantes sont calculées de manière à maximiser les différences entre les groupes que l'on cherche à discriminer. Si les variables utilisées dans l'analyse ont été bien choisies et qu'elles recèlent un bon pouvoir de discrimination, elles donneront lieu à l'émergence d'une fonction discriminante sur laquelle les membres d'un même groupe auront des scores relativement semblables, alors que les membres de groupes différents obtiendront sur la même fonction discriminante des scores relativement différents.
Le nombre maximal de fonctions canoniques discriminantes que l'analyse pourra produire est déterminé par le plus petit des deux termes suivants: soit « le nombre de variables X dans l'analyse », soit « le nombre de groupes à discriminer - 1 ». Notez toutefois que les fonctions discriminantes extraites successivement sont orthogonales, c'est à dire indépendantes les unes des autres et qu'elles contribuent de moins en moins à la discrimination. En corollaire, on constate que les fonctions extraites plus tardivement dans une analyse sont généralement de plus en plus difficiles à interpréter. Pour ces raisons, il est plutôt rare d'interpréter plus de deux fonctions canoniques discriminantes dans une analyse.
L’interprétation des fonctions
Si plusieurs fonctions discriminantes sont extraites, elles sont classées en ordre décroissant de capacité de séparation (la 1ère fonction extraite étant donc toujours la meilleure). Le test statistique lambda de Wilks est utilisé pour déterminer si les fonctions canoniques discriminantes extraites sont significatives. Il est également possible de déterminer le pourcentage de variance expliquée par chacune des fonctions canoniques extraites. Tel que mentionné précédemment, même si plusieurs fonctions discriminantes sont statistiquement significatives, il n'est pas rare de voir les chercheurs limiter leur interprétation aux fonctions les plus importantes, soit la (ou les deux) première(s). Deux types de coefficients peuvent être utilisés pour guider l'interprétation des fonctions canoniques discriminantes. Les premiers coefficients sont les coefficients canoniques standardisés; ils sont assimilables aux coefficients de régression standardisés (bêtas) de l'analyse de régression multiple. Ces coefficients reflètent la contribution relative de chaque variable à la fonction discriminante après avoir contrôlé les autres variables présentes dans l'analyse; ce sont donc des coefficients de corrélation partiels. Généralement, l'interprétation d'une fonction discriminante est plus facile à faire en examinant le deuxième type de coefficients, soit les coefficients de corrélation simples entre chaque variable et les scores obtenus sur la fonction discriminante. Les corrélations les plus fortes indiquent généralement les variables qui contribuent le plus à la discrimination entre les groupes.
La perspective prédictive
Lorsqu'une ou plusieurs fonctions discriminantes significatives ont été obtenues, le chercheur voudra habituellement vérifier leur puissance discriminative en procédant au classement des sujets dans les différents groupes ciblés. C'est d'ailleurs la seule façon d'évaluer vraiment la capacité de discrimination des variables. L'analyse permet de déterminer les « pourcentages de classement correct » dans chacun des groupes considérés. Il est également possible de corriger les pourcentages de classement correct obtenus dans l'échantillon de manière à estimer plus fidèlement la qualité de classement qui pourrait être obtenue si la solution était appliquée à un nouvel échantillon. Aussi, lorsque la taille de l'échantillon le permet, il est possible de valider la valeur prédictive de la solution discriminante en scindant l'échantillon initial en deux sous-groupes. Le premier groupe servira à déterminer la ou les fonctions canoniques discriminantes appropriées et à estimer leur puissance discriminative dans l'échantillon ayant servi à déterminer les fonctions initiales; les fonctions discriminantes du 1er groupe pourront ensuite être appliquées aux données du 2e groupe, considéré alors comme
...