Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
Note de Recherches : Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC. Rechercher de 53 000+ Dissertation Gratuites et MémoiresERIC
5
Notions clés – Modèle Economique
Un modèle consiste en une présentation formalisée d’un phénomène sous forme d’équations mathématiques. Comme toutes les variables économiques sont interdépendantes (notion de système), il n'est pas suffisant de construire des équations isolées : il faut établir un système complet d'équations.
Exemple :
O = f ( p) D = g ( p) O = D+∆
O = a× p +b D =α × p+β
Equations de comportement. Identité
Théorie économique
Modélisation (Introduction d’hypothèses simplificatrices sur la forme de la relation)
Estimation de a, b, α et β à partir des données disponibles
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
6
Notions clés – Modèle Econométrique
Faire intervenir l’aléatoire dans l’équation économique. Parce que la relation n’est pas déterministe.
La spécification retenue est une simplification, il est évident qu’il ne résume pas toute la teneur de la relation (ex. dans les équations, la relation est vraiment linéaire ?) Il y a d’autres facteurs dont on ne tient pas compte (ex. le prix des autres de biens qui peuvent se substituer au bien étudié) Les erreurs de mesure sur les grandeurs étudiées, soit lors du processus de récolte des informations, soit tout simplement parce que la donnée récoltée représente peu ou prou le concept que l’on veut étudier.
Introduction du facteur « aléatoire » Résumé de toute l’information non prise en compte dans le modèle
O = a × p + b + εO D =α × p + β +εD
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
7
Notions clés – Variable
Les variables représentent des grandeurs économiques observées ou mesurées. Ex. les quantités vendues d’un bien, le prix d’un bien, des taux d’intérêt, le solde d’une balance commerciale, le taux de change, etc.
La variable doit être représentative du phénomène que l’on étudie, de sa qualité dépend la validité des résultats obtenus
Problèmes d’inadéquation (étudier les ventes de pain, et utiliser des données mesurant les ventes de biscottes) Problèmes sur les variables Erreur de mesures (problèmes lors du recueil des données ou des transmissions des données), d’unités (compter en nombre de pain vendu, ou en chiffre d’affaires) Problème de représentativité (mesurer uniquement des ventes des boulangeries, et ne pas tenir compte des ventes en grande surface)
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
8
Notions clés – Variable aléatoire
Une variable aléatoire est une grandeur mesurable dont les valeurs sont soumises à une certaine dispersion lors de la répétition d’un processus donné.
La dispersion d’une variable aléatoire est régie par une loi de probabilité . Ex. le résultat du jet d’une pièce de monnaie est une variable aléatoire, il prend deux valeurs possibles « pile » ou « face », il suit une loi de Bernouilli de paramètre p = 0.5.
Remarque : à chaque phénomène étudié sa loi de probabilité. Ex. Durée entre deux phénomènes, nombre d’occurrence d’un phénomène dans un laps de temps, nombre d’essais avant d’obtenir un résultat, etc.
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
9
Notions clés – Types de variables
Success Wages Job Y 0 Unemployed N 2000 Skilled Worker N 1400 Worker N 1573 Retired Y 2776 Skilled Worker N 2439 Retired N 862 Office employee Y 1400 Salesman N 1700 Skilled Worker Y 785 Employee Y 1274 Worker N 960 Employee N 1656 Worker N 0 Unemployed Refunding Slow Slow Slow Slow Slow Fast Slow Slow Slow Fast Slow Fast Fast Slow
Quantitative Qualitative nominale Qualitative ordinale
Le critère le plus important pour distinguer les variables est de déterminer si l’écart entre deux valeurs a un sens, et qu’elles sont comparables deux à deux.
Ex. Age, Salaires, Satisfaction, Type d’études suivies,…
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
10
Notions clés – Population et échantillon
La population définit l’ensemble d’individus sur lesquels nous voulons travailler : on parle alors de population de référence ou de population parente ou population mère (ex. les véhicules vendus en France en 2005, etc.). Tous les résultats obtenus sont toujours relatifs à (circonscrites à) une population. Les enquêtes exhaustives consiste à observer tous les individus qui composent la population. Opération très coûteuse.
On procède alors à un échantillonnage, on prélève une fraction de la population en veillant à ce qu’il soit représentatif de la population c.-à.-d refléter la composition et la complexité de la population. Le taux de sondage correspond au rapport entre la taille de l’échantillon et la taille de la population.
Attention au mauvais échantillonnage. Comment s’assurer que l’échantillon est représentatif ? Rôle des variables de contrôle.
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
11
Notions clés – Inférence statistique
Inférence statistique. Elle consiste alors à effectuer des études sur . l’échantillon et transposer les résultats sur la population. Cette transposition n’est pas stricte, elle attache toujours une probabilité aux résultats et aux conclusions émises.
Tirer des conclusions sur l’existence ou non d’un phénomène (test d’hypothèses – ex. l’augmentation du prix du tabac réduit-t-il vraiment la consommation de cigarettes ?) Estimer les paramètres d’un phénomène (estimation de paramètres – ex. une augmentation de 1 euro du prix du paquet de cigarette réduit de combien le nombre de paquets vendus ?)
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
12
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
13
Attention : Distinguer ce qui relève de la simple régularité statistique (artefact) de ce qui représente une causalité économique. La théorie économique (la connaissance du domaine) est un gardegarde-fou indispensable.
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
14
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
15
Source: CRISP-DM 1.0, Step-by-step Data Mining Guide, SPSS Publication
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
16
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
17
Analyse de régression – Schéma de régression
Modèle à une équation :
Y = f ( X 1 , X 2 ,K , X p ) + ε
Prédiction / Explication : Prédire/expliquer les valeurs de Y à partir des valeurs de X1, X2, …, Xp. Y est dite « variable endogène », c’est la variable donc on essaie de prédire les valeurs (variable à prédire, variable dépendante, expliquée) ; X1…Xp sont les « variables exogènes », ce sont les variables qui servent à prédire les valeurs de Y (variables prédictives, variables indépendantes, explicatives). Les valeurs des X sont donc connues (ou mesurées rapidement, facilement), elles servent à prédire les valeurs des Y qui sont inconnues (ou connues avec retard).
Ex 1. Prédire les ventes nationales de pain sur l’année (connu uniquement à la fin de l’année) à partir de son prix (connu instantanément). Ex 2. Expliquer la consommation des pays européens à partir du revenu et du taux de chômage.
Équipe de recherche en Ingénierie des Connaissances Laboratoire ERIC
18
Régression
...