DissertationsEnLigne.com - Dissertations gratuites, mémoires, discours et notes de recherche
Recherche

La régression multiple

Dissertation : La régression multiple. Rechercher de 53 000+ Dissertation Gratuites et Mémoires
Page 1 sur 19

seront différentes mais la logique reste la même. L’analyse par régression linéaire multiple est une des solutions qui existe pour observer les liens entre une variable quantitative dépendante et n variables quantitatives indépendantes.

Toutes méthodes faisant appel aux régressions reposent sur l’acceptation des hypothèses fondatrices de la statistique paramétrique1 et la notion d’ajustement par les moindres carrés. La moyenne arithmétique d’une variable est par conséquent considérée comme un centre de gravité et la notion des moindres carrés consiste à minimiser la somme des résidus élevés à la puissance deux entre la valeur observée et celle extrapolée.

1.1. Régression linéaire simple

Un exemple simple d’ajustement par les moindres carrés est donné par l’analyse bivariée de variables quantitatives qui peut se simplifier par le calcul des variances et de la covariance des deux variables X et Y retenues.

La variance répond à la formule suivante :

où :

n, nombre d’individus xi, valeur de la variable x pour l’individu i

x , moyenne arithmétique de la variable x

Pour simplifier à l’extrême, la statistique paramétrique repose sur l’hypothèse que les données sont des variables indépendantes distribuées selon une loi normale.

1

La covariance considère les variations communes des deux variables selon la formule :

CovXY =

1 N

∑ (x

n i =1

i

− x * yi − y

)(

)

où :

n, nombre d’individus xi, valeur de la variable x pour l’individu i

x , moyenne arithmétique de la variable x

yi, valeur de la variable x pour l’individu i

y , moyenne arithmétique de la variable y

Enfin, le coefficient de corrélation est donné par la formule :

Ceof .cor =

CovXY VarX * VarY

Le coefficient de corrélation correspond au cosinus de l’angle formé entre deux droites de régression se croisant aux coordonnées des moyennes arithmétiques des deux variables observées (centre de gravité supposé). On définit donc deux droites répondant chacune à une équation affine :

X ' = a1Y + b1 et Y ' = a 2 X + b2

X’ et Y’ étant les valeurs estimées à partir des valeurs observées X et Y.

Dans le cas de l’analyse bivariée, les coefficients des équations sont facilement donnés par :

a1 =

∑ (x

n i =1 n

i

− x yi − y

i

)(

)

∑ (x

i =1

−x

)

2

a2 =

∑ (x

n i =1 n

i

− x yi − y

i

)(

)

∑ (y

i =1

−y

)

2

b1 = y − a1x

b2 = x − a 2 y

Prenons comme exemple la matrice théorique suivante (table A1) :

id 1 2 3 4 5 6 7 8 9

X

Y X' Y' X-moyX Y-moyY (X-moyX)² (Y-moyY)² (X-moyX)(Y-moyY) 2 18 1.847222222 13.95157895 -4.777777778 8.333333333 22.82716049 69.44444444 -39.81481481 3 15 3.622222222 13.05473684 -3.777777778 5.333333333 14.27160494 28.44444444 -20.14814815 4 12 5.397222222 12.15789474 -2.777777778 2.333333333 7.716049383 5.444444444 -6.481481481 5 9 7.172222222 11.26105263 -1.777777778 -0.666666667 3.160493827 0.444444444 1.185185185 6 6 8.947222222 10.36421053 -0.777777778 -3.666666667 0.604938272 13.44444444 2.851851852 8 5 9.538888889 8.570526316 1.222222222 -4.666666667 1.49382716 21.77777778 -5.703703704 10 6 8.947222222 6.776842105 3.222222222 -3.666666667 10.38271605 13.44444444 -11.81481481 11 7 8.355555556 5.88 4.222222222 -2.666666667 17.82716049 7.111111111 -11.25925926 12 9 7.172222222 4.983157895 5.222222222 -0.666666667 27.27160494 0.444444444 -3.481481481

Table A1 : Exemple théorique Le coefficient de corrélation est de -0.72844463, les équations sont : Y’ = -0.8968X+ 15.745 (en jaune)

et X’ = -0.5917Y + 12.497 (en magenta)

La somme des carrés des écarts entre les valeurs observées et celles théoriques est ici minimale pour les deux droites de régression, ce qui correspond à l’ajustement par les moindres carrés. Notons que ces écarts sont appelés résidus et qu’ils sont perpendiculaires (c’est-à-dire indépendants d’un point de vue mathématique) à l’axe de la variable explicative dont les valeurs ne changent pas par définition (figure A8).

Moyenne X = 6.77

Moyenne Y = 9.66

Figure A8 : Les deux droites de régression et le coefficient de corrélation

1.2. Régression linéaire multiple

L’exemple développé à partir de deux variables permet de comprendre la logique de la théorie de la régression mais il ne peut être généralisé de la sorte aux régressions multiples. Le système à deux équations à deux inconnus présenté se résolvait facilement comme on l’a vu. Les équations se compliquent avec plusieurs régresseurs, deux méthodes distinctes permettent de résoudre les équations. La première repose sur la connaissance des coefficients de corrélation linéaire simple de toutes les paires de variables entre elles, de la moyenne arithmétique et des écarts-types de toutes les variables. La seconde repose sur des calculs matriciels.

1.2.1. Les étapes de calcul fondé les variables descriptives

Soit un ensemble de p variable où la p-ième variable est la variable indépendante. Toutes les variables sont au préalable centrées-réduites. Soit r12, r13… rpp les coefficients de corrélations linéaires des paires de variables et s1, s2, …, sp les écarts-types. Prenons un exemple avec p = 4 soit 3 variables dépendantes. Dans un premier temps on calcule les coefficients de régression linéaire a’1, a’2, a’3 en résolvant un système de p-1 équations à p-1 inconnues :

r1p = a’1 + r12a’2 + r13a’3 r2p = a’2 + r21a’1 + r23a’3 r3p = a’3 + r31a’1 + r32a’3

Pour résoudre ce système on procède par substitutions successives :

a’1 = r1p - r12a’2 + r13a’3

d’où

r2p = a’2 +( r21 * (r1p - r12a’2 + r13a’3)) + r23a’3 a’2 = r2p - r21a’1 + r23a’3 a’3 = r3p - r31a’2 + r32a’3

Connaissant désormais les coefficients de régression on détermine ceux des variables brutes :

Enfin, la constante d’ajustement est donnée en résolvant l’équation pour la coordonnée à l’origine :

− − − −

ε = y − a1 x1 − a 2 x 2 − a3 x 3

Le coefficient de détermination multiple est donné par : R 2 = ∑ j =1 a 'j r jp

p −1

Prenons garde au fait que ce coefficient – dont les a’p-1 constituent en quelque sorte la contribution – croît avec le nombre de variable. Par conséquent, ce comportement déterministe lié aux propriétés des variables aléatoires doit être compenser, on calcule alors le coefficient ajusté : (n − 1) (1 − R 2 ) n − ( p − 1) − 1

R 2 ajusté = 1 −

Où :

n : nombre d’individus

...

Télécharger au format  txt (30.6 Kb)   pdf (224.7 Kb)   docx (21.7 Kb)  
Voir 18 pages de plus »
Uniquement disponible sur DissertationsEnLigne.com