Statistiques.
Cours : Statistiques.. Rechercher de 53 000+ Dissertation Gratuites et MémoiresPar cadeaumuhay • 14 Janvier 2017 • Cours • 25 619 Mots (103 Pages) • 938 Vues
Statistique
06/02
- Introduction :
- Exemple l’enquête :
Ex : l’enquête : 1000 personnes interrogées dont 700 sont favorables :
Pour la description, on va dire que 700 personnes acceptent cela
Pour l’inférence, on dira que 70% de la population sont pour
- Définition :
Une population : ensemble d’unités statistiques sur lequel on recherche des informations quantifiables.
Un échantillon : sous-ensemble de la population.
Les individus : éléments d’une population ou d’un échantillon.
Le recensement : collecte d’informations sur la totalité des individus de la population
Différents exemples :
- La population serait l’ensemble des bruxellois
- L’échantillon serait les 1000 personnes interrogées
- Un individu serait un simple bruxellois
- Un recensement est le fait de mesurer la taille d’une population entière
On peut par exemple s’intéresser au temps de vie des ampoules électriques produites par une entreprise pendant une journée. On va prendre un échantillon de 100 ampoules, et dans ce cas, un individu sera une ampoule.
La statistique descriptive : il s’agit de présenter des données avec des tableaux ou des graphiques.
La statistique inférentielle : on prend un échantillon, et avec des probabilités, on en fait une généralisation.
Quels sont les avantages d’avoir des échantillons ?
- Cela offre un avantage économique, on paye moins cher
- Cela prend moins de temps
- Cela offre plus de possibilités
- Le recensement est parfois impossible
- Etc.
Quel est le plus grand désavantage ?
Dans le cas de l’ampoule, on la détruit après l’avoir utilisée, ce qui la rend inutilisable
- Les fichiers de données :
Si on a 158 ménages et 14 variables, on aura un tableau avec 158 lignes (ième) et 14 colonnes (revenus,… ➔ jème).
- Les variables :
- Qualitatives : on ne peut faire d’opérations sur les valeurs de la variable (+, -, x, /)
Ex : un échantillon de 2ème BAC POLS.
- Variable nominale : on n’a pas d’ordre sur les valeurs de la variable.
Ex : les couleurs de cheveux, il n’y a pas de calcul ni d’ordre
- Variable ordinale : on a un ordre
Ex : le grade obtenu par les étudiants en juin 2013 (Ajourné, S, D, GD, PGD, PGD+)
- Quantitatives : on peut faire des opérations :
- Variable discrète : on a une opération et un nombre fini de valeurs.
Ex : le nombre de fois où l’étudiant a été au ciné entre Janvier 2014 ➔ {0, 1, 2,…} - Variable continue : la taille d’un étudiant [150, 210], on en fait une moyenne
- Statistique descriptive à une dimension :
- Statistique descriptive pour une variable qualitative :
- Exemple :
La 11ème colonne du fichier est le statut matrimonial ➔ Variable x, codification x1, x2, x3, x4. On part d’un tableau brut pour en faire des tableaux plus précis ou des graphiques.
- Effectifs, fréquences :
(voir slide sommation), N=4, la somme = 158 = n ➔ Les effectifs = ni, et les fréquences = fi = ni/n ➔ E = 1
- Distribution d’une variable statistique :
Définition : l’association d’une variable X et des fréquences correspondantes de chacune de ses valeurs s’appelle la distribution statistique de la variable X.
Dans le cas du tableau, la 1ère colonne = la valeur et la 2ème colonne = la fréquence
- Tableau de fréquence :
Ce dernier décrit la relation entre les valeurs xi, les effectifs ni, et les fréquences fi ou f’i.
Voir slide d’exemple, E = 158, 1 et 100
- Représentations graphiques :
- Diagramme en bâtons : abscisse = la variable ; l’ordonnée = les effectifs ou les fréquences
- Diagramme circulaire : chaque fréquence fi est représentée par un secteur angulaire dont l’angle est proportionnel à la fréquence.
- Application : le déchiffrage des codes :
On prend un échantillon de texte français et on fait une fréquence des lettres qui apparaissent le plus souvent. Ce qui est important c’est l’échantillon représentatif.
En 1923, on avait deux candidats aux USA: Roosevelt et Landon. On a fait appel à une équipe de sondage, et on disait que Landon allait être élu. Ils ont fait un sondage par téléphone, et les riches votaient plutôt pour les démocrates. Quand on fait une analyse, il faut faire attention à l’échantillon que l’on prend.
- Statistique descriptive pour des variables quantitatives discrètes :
- Exemple :
Opération, et le nombre de la variable est fini :
Quel est le nombre d’enfants que vous avez en tant que ménage ?
- Représentation :
On fera un tableau de fréquence, pour les valeurs de la variable, on le fait en ordre croissant (ordre naturel).
Pour la deuxième colonne, on met les effectifs (et les effectifs cumulés).
Dans la 4ème, ce sont les fréquences (et les fréquences cumulées).
Par rapport aux variable qualitatives, on rajoute les colonnes des effectifs et des fréquences cumulées ➔ NN = n1 + n2+…+ nn et Fn = f1 + …+fn = 1 (voir tableau, slide 13).
Ex : fréquence des familles nombreuses = 31% contre 69% qui ne le sont pas.
- Représentation graphiques :
- Le diagramme en bâton :
Le diagramme en bâton est la représentation graphique des effectifs ou des fréquences.
Pour le graphique, on a les variables en abscisse et les fréquences/effectifs en ordonnée.
- La courbe cumulative : (voir graph papier)
La courbe cumulative est la représentation graphique des fréquences cumulées :
F(x) : le pourcentage des familles qui ont un nombre d’enfants inférieur ou égal à x.
Ex : f(0) = 0.114 ; F(1) = 0.411 ; …
F(0,5) = ? Un demi enfant vaut donc aucun enfant, et F(0,5) = F (0) = 0,114
- Statistique descriptive pour des variables quantitatives continues :
- Tableau ordonné :
Celui-ci est plus compliqué, on traite en effet ici les variables statistiques continues et les variables discrètes qui prennent un nombre important de valeurs, dans ce cas, on a 135 lignes. On va donc regrouper les données en classes.
Pour pouvoir le représenter, on aura un diagramme en bâtons, mais celui-ci, au vu du nombre de lignes trop important, ne résumé pas les données de manière pertinente.
- Tableau classé :
Procédure + exemple :
- Ordonner les valeurs xi en ordre croissant (voir tableau, croissant donc tableau ordonné), noter les effectifs observés ni pour chaque xi.
- Déterminer l’étendue E des données E = 25 780 – 560 = 25 220 (différence entre la plus grande et la plus petite des données)
- Choisir le nombre k de classes, par exemple 9 (en général, 5< k < 20)
- Il faut déterminer la longueur de chaque classe : 25 220 / 9 = 2802,22
On prend des classes de même longueur l, et on essaye d’avoir des chiffes ronds ➔ 3000 (plus grand pour recouvrir toutes les données). On en cherche une qui est proche de E/K, avec K.l > ou égal à E. - Déterminer les limites et les centres des classes, on essaye de trouver ici aussi des nombres ronds : ]0, 3000] ]3000, 6000] ,…, ]24000, 27000]
Intervalle semi-ouvert à gauche, et semi-fermé à droite (voir slide 19).
- On met ensuite ces classes dans un tableau
- L’histogramme :
Il s’agit de la représentation graphique des fréquences ou des effectifs d’une variable quantitative groupée en classes.
L’histogramme se construit de la façon suivante :
- On trace des rectangles ayant pour base la longueur de chacune des classes; ces bases sont représentées sur l’axe horizontal;
- La hauteur de chaque rectangle sera calculée pour que l’aire de chaque rectangle soit égale à la fréquence de la classe correspondante.
Si toutes les classes ont la même longueur, la hauteur de chaque rectangle sera égale à la fréquence de la classe correspondante.
En abscisse, on met les classes, et en ordonnée, on calcule l’air en fonction de la fréquence (si on a des classes de longueur différente). Attention exercice examen, abscisse de taille différente.
...