Étude de la variabilité
Cours : Étude de la variabilité. Rechercher de 54 000+ Dissertation Gratuites et MémoiresPar Oprune • 26 Février 2025 • Cours • 3 155 Mots (13 Pages) • 13 Vues
HAV312B - ETUDE DE LA VARIABILITÉ
I - GÉNÉRALITÉS ET DÉFINITIONS
Les statistiques sont des sciences ayant pour objectif de trouver des lois applicables à un ensemble d’êtres vivants, de phénomènes ou d’objets biologiques, permettant d’élaborer des hypothèses et de les tester en biostatistiques. Ex : cette molécule a-t-elle un effet ?
Population: ensemble d’êtres vivants ou objets biologiques sur lesquels on peut employer des lois
Échantillon: groupe restreint d’individus dans la population, on utilise aussi le terme d’observation, qui peuvent être univariée (= un seul phénomène particulier) ou multivariées (= plusieurs phénomènes.
Dans un tableau, on va généralement utiliser les lignes pour un individu/ une observation et les colonnes pour la ou les variables.
Variable statistique ou aléatoire: quantité, une propriété ou encore un caractère qu'on va pouvoir définir sur la population étudiée et qui est variable selon les individus ou des observations.
Variable ordonnée et non ordonnée: non chiffrée
- ordonnées/ ordinale: on est capable de lui donner un rang (= une valeur est plus petite ou plus grande qu'une autre)
- non ordonnée/ nominale: on ne peut pas donner de rang aux variables
Variable quantitative et qualitative:
- qualitative : variable pour laquelle on va pouvoir nommer les différents états, ils sont organisés en catégories, aussi appelés facteurs (groupe sanguin, couleur des yeux,...)
- quantitative : variable à laquelle on va pouvoir assigner une valeur chiffrée, elle va donc forcément être ordonnée
Les variables quantitatives peuvent être de 2 types : chiffres
- variable continue : variable qui va contenir une variable infinie d’état
- variable discrète: variables pour lesquelles on va pouvoir énumérer les différents états ( pointure de chaussure)
Distribution: ce qui va permettre de comprendre quels vont être les individus qui vont correspondre à quelle valeur prise par les différentes variables.
Pour représenter la distribution de variables qualitatives, on va faire un tableau d’effectif et de valeurs ( on peut appeler ces différentes valeurs des modalités).
Les graphiques vont associer les valeurs à leur effectif. Si on connaît l'effectif pour chaque valeur et l’effectif total, on va pouvoir calculer différentes fréquences associées à chaque valeur. Pour représenter la distribution, on peut utiliser différents types de graphiques
- en barre: la taille des barre dépend de l’effectif que l’on va trouver pour chaque modalité
- en camembert: chacune des sections a une aire proportionnelle à la fréquence
Pour une variable ordonnée, on peut définir la fréquence cumulée ( = la somme des fréquences individuelles jusqu'à ce qu’on arrive à la valeur souhaitée) : soit une distribution (xi , ni), avec i ∈ [1, p], la fréquence cumulée d’ordre k notée Fk est la somme des k premières fréquences.
La fréquence F cumulée d'ordre k vaut:
Autrement expliqué : Fréquence cumulée=ni/N
- ni représente l'effectif cumulé des observations jusqu'à la classe i incluse. Autrement dit, c'est la somme des effectifs des classes allant de la première jusqu'à la classe i.
- N représente l'effectif total, c'est-à-dire le nombre total d'observations dans l'ensemble des classes.
La valeur xi correspondant à Fi, la somme des fréquence f1+f2+...+fi nous donne la fréquence cumulée Fi qui porte le nom de quantile de X a Fi × 100%
Un quartile est la valeur que va prendre notre variable quand on en donne les valeurs de la distribution jusqu'à atteindre un certain pourcentage.
La médiane est la valeur de xi pour laquelle on atteint 50% de la distribution, c'est-à-dire où la fréquence cumulée est égale à 50%.
Dans le cas des variables discrètes ordonnées, on peut ajouter une colonne supplémentaire qui sera celle de la fréquence cumulée.
Pour la valeur xi, la fréquence f1 =n1/effectif total et la fréquence cumulée = n1/ni
Pour x2, la fréquence cumulée = n1/ni+n2/ni
Si on avance jusqu'à xi, la fréquence cumulée= somme des ni premiers effectifs/N
La fréquence cumulée d’ordre p, où on a couvert l’ensemble des possibilités = 1
On peut faire une représentation de cette fréquence cumulée avec les valeurs qui sont prises par la variable x dans un polygone des fréquences cumulées.
On peut l’utiliser pour calculer un quantiles particulier
Si on a 2 variables qualitatives, on peut les représenter par un tableau de contingence ou d’un graphique en mosaïque
Pour les variables quantitatives continues, il est souvent impossible de lister toutes les valeurs prises par la variable, car elles peuvent prendre une infinité de valeurs dans un intervalle donné. Afin de décrire ces données de manière efficace, on procède à un découpage en classes (= chaque observation est ainsi assignée à une classe correspondant à un intervalle de valeurs).
Les classes sont définies par des intervalles de nombres. Si toutes les classes ont la même amplitude, c'est-à-dire la même différence entre les bornes inférieures et supérieures des classes, on parle de subdivision régulière.
La longueur d'une classe, appelée pas, est donnée par la formule :
Pas=xp-x0/nombre total de classes
où :
- xp est la valeur maximale de la variable,
- x0 est la valeur minimale de la variable.
Cette subdivision régulière permet de répartir les observations de manière équitable dans les classes, assurant ainsi un découpage constant.
À chaque classe, on peut associer :
- Un effectif : le nombre d'observations dans cette classe,
- Une fréquence : le rapport entre l'effectif de la classe et l'effectif total des observations.
Fréquence = effectif de la classe/effectif total
La fréquence cumulée représente la somme des fréquences des classes précédentes et de la classe considérée. Elle permet de déterminer la proportion des observations qui sont inférieures ou égales à la borne supérieure d'une classe donnée.
Fréquence cumulée = ensemble des fréquences de la classe
Une fois les fréquences cumulées calculées pour chaque classe, il est possible de représenter graphiquement la distribution à l'aide d'un polygone des fréquences cumulées. Ce polygone permet de visualiser la progression des observations et d'analyser la distribution des données.
...