DissertationsEnLigne.com - Dissertations gratuites, mémoires, discours et notes de recherche
Recherche

Présentation de l’analyse de données

Rapports de Stage : Présentation de l’analyse de données. Rechercher de 53 000+ Dissertation Gratuites et Mémoires
Page 1 sur 45

es de l’espace que l’on peut réduire, qui portent le nom d’axes principaux, mais aussi de facteurs. Les techniques de classification automatique : ce sont des algorithmes informatiques automatiques capables de dresser des typologies, des regroupement de points, bref d’effectuer des classifications.

Ce sont les analyses factorielles qui font l’objet de ce cours.

I du tableau de données à l’analyse des données

Les analyses de données ont pour matière principale le tableau de données. De la nature de ce tableau dépend la nature des variables qui le composent. L’individu est un élément d’un ensemble fini que l’on appelle l’ensemble des individus. Ils sont portés en ligne du tableau. La description de ces individus est réalisée par des variables. Les variables sont portées en colonne du tableau. Une variable est définie par un ensemble que l’on appelle l’ensemble des observations (qui sont portées à l’intérieur du tableau) par une structure algébrique sur cet ensemble et par une application de l’ensemble des individus sur l’ensemble des observations. Plus généralement, une variable est un caractère statistique particulier. On dénombre deux types de caractères : quantitatif et qualitatif. Le caractère quantitatif est mesurable, c’est-à-dire qu’il prend ses valeurs dans des ensembles mathématiques comme par exemple l’ensemble des entiers naturels relatifs, réels… C’est ce caractère qu’on appelle variable.

2 / 11

Analyse des données

Module 1 : Présentation de l’analyse de données

M1

Le caractère qualitatif est non mesurable. Il est qualifié par des modalités. On considère qu’il existe deux types de modalités : des modalités qu’on peut classer (ex : petit, moyen, grand), des modalités où le classement est indifférent (ex yeux bleus, verts…). Caractère

Quantitatif (variable)

Qualitatif

Continu ∈R

Discret ∈ Z, ∈ N Ordinales

modalités

nominales

Classes

intervalles

Fréquemment, les variables quantitatives sont transformées en classes (pour le cas continu) ou en intervalles (pour le cas discret). On considère alors que ces classes ou intervalles sont les modalités d’une variable qualitative ordinale. On constate alors que dans la plupart des tableaux, on ne dispose que d’un seul type de caractère : le caractère qualitatif, nominal ou ordinal. Dans la suite du cours, l’appellation caractère ne sera pas retenue. Comme dans la plupart des manuels, on retiendra le terme générique de variables. Les différents caractères (variables) que l’on vient de définir permettent d’élaborer des tableaux différents et c’est cette différence qui, à son tour, définit les méthodes d’analyse de données. On considère dans la pratique quatre tableaux de données sur lesquels s’appliquent des méthodes d’analyses factorielles différentes. le tableau de variables (caractères) quantitatives : Variables

x1

1 … individus i … N

xi

xn

xij

La méthode d’analyse factorielle qui permet de traiter ce tableau porte le nom d’analyse en composantes principales : ACP.

3 / 11

Analyse des données

Module 1 : Présentation de l’analyse de données

M1

-

le tableau de contingence : Modalités de Y 1 1 Modalités de X … i … N M j n

nij

Les modalités doivent être exhaustives. (tous les M individus sont renseignés par les caractères X et Y) et exclusives les unes par rapport aux autres. C’est la répartition de M individus selon les modalités des caractères X et Y. La méthode d’analyse factorielle qui permet de traiter ce tableau porte le nom d’analyse factorielle des correspondances (AFC). les tableaux d’enquêtes ou de sondages : 1 1 … Individus i … N Les réponses des N individus aux questions sont codées en affectant un chiffre aux diverses possibilités de réponses. Ces codes constituent pour une question le nombre de ses modalités. Le tableau codé est alors transformé en un tableau disjonctif complet. C'est-à-dire un tableau qui ne présente que des 0 ou des 1. Le chiffre 1 est donné à la modalité possédée par l’individu. On applique à ce tableau une AFC et la méthode s’appelle analyse factorielle des correspondances multiples (AFCM) Exemple :

Codification (pour la saisie des réponses)

Questions ………….n

Tableau disjonctif

Homme Femme Français Etranger Yeux bleus Marron Noir

1 2 3 4 5 6 N

Nationnali Couleur Sexe té Yeux homme Français Bleu femme Etranger Marron femme Etranger Noir homme Etranger Bleu femme Français Marron homme Français Noir femme Français Bleu

Sexe

Nationnalité

Couleur Yeux

1 2 2 1 2 1 2

1 2 2 2 1 1 2

1 2 3 1 2 3 1

1 0 0 1 0 1 0

0 1 1 0 1 0 1

1 0 0 0 1 1 1

0 1 1 1 0 0 0

1 0 0 1 0 0 1

0 1 0 0 1 0 0

0 0 1 0 0 1 0

Individus

-

les tableaux quantitatifs où les individus sont regroupés par paquet en fonction d’une variable qualitative :

4 / 11

Analyse des données

Module 1 : Présentation de l’analyse de données

M1

x1

1 individus … i … N

xi

xn

Variable qualitative

q1

qr

La méthode factorielle appliquée à ce tableau porte le nom d’analyse factorielle discriminante (notée AFD)

Les calculs de l’analyse de données ne se font jamais à la main. Les logiciels pour l’utiliser sont très nombreux et l’on peut les segmenter selon plusieurs types : les logiciels de traitement d’enquête (Le Sphinx, ethnos, Question, …). Bien que leur spécialité soit le traitement de questionnaires, ils intègrent quelques méthodes d’analyses factorielles. Les sorties sont relativement sommaires et les options disponibles sont limitées (pas de rotation des axes, …) les logiciels boîtes à outils (XLSTAT, Statbox). Ils permettent de réaliser diverses analyses factorielles (ACP, AFC, ACM), quelques techniques de classification (Classification hiérarchique, K moyennes) ainsi que les techniques de prévision classiques. Les données sont gérées à partir du logiciel Microsoft Excel et les sorties s’effectuent dans des feuilles de calculs. Globalement, ils offrent un bon rapport qualité/prix Les logiciels de statistique (SPSS, SPAD, SAS, …). Conçus pour manipuler et analyser de grands tableaux de données, ils sont très complets sur le plan des méthodes présentes et sur les options disponibles. L’utilisation est plus complexe et nécessite parfois plusieurs journées (voire plusieurs mois) de formation. Leur prix en fait un outil réservé aux cabinets statistiques ou aux directions statistiques de grandes entreprises.

-

-

Dans ce cours, nous utiliserons les sorties du logiciel Statbox.

Les bases de l’analyse de données

Après avoir introduit les principes généraux de l’analyse de données, nous rappellerons ici certaines statistiques élémentaires qui forment les fondations de l’analyse des données.

Présentation des données et types de variables

Généralement, le problème à résoudre se présente sous forme de table contenant les observations (ou individus ou exemples)

...

Télécharger au format  txt (63.9 Kb)   pdf (523.7 Kb)   docx (45.5 Kb)  
Voir 44 pages de plus »
Uniquement disponible sur DissertationsEnLigne.com