Econométrie

Voici quelques (tentatives) de définition de l'Econométrie :

Définition 1 : Etudes des relations quantitatives de la vie économique faisant appel à l'analyse statistique et à la formulation mathématique.

Définition 2 : L'économétrie exprime quantitativement les corrélations pouvant exister entre des phénomènes économiques dont la théorie affirme l'existence. La théorie économique fournit des idées sur les processus qui déterminent les grandeurs économiques, l'économétrie apporte une vérification empirique et établit quantitativement les corrélations qui apparaissent valides.

Définition 3 : L'objectif de l'économétrie est de confronter un modèle économique à un ensemble de données (données de panel, série temporelle, etc.) et ainsi d'en vérifier la validité.

Définition 4 : L'économétrie est une branche de l'économie qui traite de l'estimation pratique des relations économiques.

Ce cours est de niveau Licence (L3 a priori), en statistique, en économétrie, en MIASHS (mathématiques et informatique appliquées aux sciences humaines et sociales).

Sa portée est à la fois restreinte et élargie. " Restreinte " car nous nous intéresserons uniquement aux modèles linéaires à une équation (on parle alors de régression linéaire multiple) ; " élargie " car nous l'appliquerons à des domaines variés autres que l'économie, tous les domaines où il est intéressant d'évaluer des relations de causalité entre des variables statistiques (marketing, écologie, santé, psychologie, sociologie, etc.).

La démarche est toujours la même dans tous les cas, celle de la modélisation statistique : délimiter un champ d'application (population étudiée, individu statistique), formaliser un problème de causalité (endogène, exogènes candidats, résultats attendus), utiliser les données (échantillon) pour valider ou invalider les hypothèses émises (coefficients significatifs, analyse de variance), interpréter et utiliser les résultats (signe et valeur des coefficients, prédiction pour un nouvel individu).

Supports de cours - Ouvrages - Travaux dirigés

Ressources

Accès

Supports de cours et cours en ligne

Recueil de supports sur le traitement statistique des données, le Machine Learning et la Data Science. Cours, fichiers de données et exemples traités à l'aide de logiciels libres. Voir la section consacrée à la régression.

Slides et quelques supports en ligne pour mes enseignements

Introduction à l'Econométrie

Introduction à l'économétrie. Définition(s). Démarche économétrique.
Domaines d'application de la régression.

Analyse de corrélation

Diaporama. Analyse de corrélation. Covariance, coefficient de corrélation linéaire de Bravais-Pearson, test de significativité, intervalle de confiance, corrélation brute et partielle.

Analyse de corrélation - Etude des dépendances, variables quantitatives (5 chapitres). Fascicule de cours. Corrélation brute, partielle et semi-partielle. Inférence statistique et transformation de Fisher.

Régression linéaire simple et multiple

Régression linéaire simple. Présentation détaillée de la régression linéaire simple. Tests d'hypothèses, intervalles de confiance, fourchettes de prévision.

Régression linéaire multiple. Présentation détaillée de la régression linéaire multiple. Tests d'hypothèses, intervalles de confiance, fourchettes de prévision.

Descente de gradient. Application du principe de la descente de gradient à l'apprentissage supervisé. En particulier pour la régression linéaire et la régression logistique.

Ridge - Lasso - Elasticnet. Principe de la régularisation pour le traitement des très fortes dimensionnalité en régression et de la colinéarité. Régression pénalisée. Descente de gradient. Extension à la régression logistique. Détermination de la valeur "optimale" du paramètre de régularisation.

Econométrie - Régression linéaire simple et multiple (15 chapitres). Fascicule de cours.

Pratique de la Régression Linéaire Multiple

Analyse graphique des résidus et test de Normalité.

Détection et traitement des points atypiques et influents.

Colinéarité : conséquences et traitement. Sélection de variables.

Régression sur exogènes qualitatives. Codage et interprétation des résultats.

Rupture de structure : détection, test de Chow, analyser la nature de la rupture.

Pratique de la Régression Linéaire Multiple - Diagnostic et Sélection de Variables (5 chapitres). Fascicule de cours.

Cours magistraux

Cours magistraux. Sur le schéma de la pédagogie inversée. Des supports à lire sont diffusés auprès des étudiants, ainsi que des exercices à réaliser en groupes. Les séances de CM consistent alors à les corriger ensemble, en commentant autant que faire se peut la démarche et la teneur des résultats.

Travaux dirigés sur machine

TD 1.a. Corrélation sous Excel. Estimation du coefficient de corrélation de Pearson, test de significativité, intervalle de confiance, corrélation partielle, corrélation sur les rangs, rho de Spearman.

 

TD 1.b. Régression simple sous Excel. Estimation des paramètres de la régression, test de significativité globale de la régression, test de significativité de la pente, intervalle de confiance des paramètres estimés, prédiction ponctuelle et par intervalle.

 

TD 2. Régression muliple sous Excel. Estimation des coefficients par le calcul matriciel et à l'aide de la fonction droitereg(), construction du tableau d'analyse de variance, calcul du coefficient de détermination, test de significativité globale de la régression, le calcul des critères AIC (Akaike) et BIC (Schwarz), tests de significativité individuelle des coefficients, sélection de variables, prédiction ponctuelle et par intervalle, évaluation de l'impact des variables à travers les coefficients standardisés, tests généralisés sur les coefficients.

 

TD 3. Régression sous R (I). Corrélation, intervalle de confiance de la corrélation, corrélation sur les rangs, régression simple, estimation de la pente et de la constante, tests de significativités, graphiques usuels en régression simple, prédiction ponctuelle et par intervalle.

 

TD 4. Régression sous R (II). Régression linéaire multiple, analyse des résidus dont les tests de normalité, détection et traitement des points atypiques, sélection de variables, prédiction sur les individus supplémentaires regroupés dans un fichier à part, exportation des résultats.

 

TD 5. Régression sous Python. Pratique de la régression linéaire multiple, inspection des résidus, détection de la colinéarité, sélection de variables, tests généralisés, détection et traitement des points atypiques et influents, prédiction ponctuelle et par intervalle.

 

TD 6. Evaluation. Recherche du modèle le plus efficace sur un jeu de données étiquetées. Prédiction ponctuelle et par intervalle sur des données non-étiquetées. Mesures de performances. Choix libre de l'outil : Excel, R ou Python.

Projet. Sujet de projet pour la modélisation à partir de données Open Data. Indentification d'une source, définition d'une problématique de régression linéaire multiple, préparation des données, modélisation économétrique, interprétation des résultats, commentaires critiques. Choix libre de l'outil : Excel, R ou Python.

Tutoriels

(Vidéo) Playlist YouTube. Econométrie : pratique de la régression avec plusieurs outils (R, Python, SAS, Tanagra, tableur). De nombreux thèmes associés à l'économétrie sont abordés : analyse de corrélation, régression simple et multiple, diagnostic et inspection des résultats, sélection de variables.

(Vidéo) Régression avec la "prog reg" de SAS. Utilisation de la PROC REG de SAS pour la régression linéaire multiple. Accès à SAS STUDIO en ligne via le programme SAS OnDemande for Academics. Proc reg, inspection des résultats, graphiques des résidus, détection des points atypiques, sélection de variables.

(Vidéo) Régression linéaire avec Excel + Tanagra. Exercice de régression linéaire multiple. Exploitation des particularités des outils : tableur pour la préparation des données et post-traitement des résultats ; logiciel spécialisé (Tanagra) pour la mise en oeuvre de l'algorithme de machine learning. Modélisation, inspection des résultats, graphique des résidus, détection des points atypiques, sélection de variables, étude des colinéarités entre les exogènes.

Python - Econométrie avec StatsModels. Pratique de la régression linéaire multiple avec StatsModels. Estimation des paramètres du modèle, tests statistiques, analyse des résidus, détection des points atypiques et influents, colinéarité, prédiction ponctuelle et par intervalle.

Régression linéaire - Lecture des résultats (Tanagra, logiciel R). Lecture détaillée des résultats de la régression linéaire multiple : évaluation globale de la régression (R2, tableau d'analyse de variance, test de significativité globale), test de significativité individuelle des coefficients, matrice de variance covariance des coefficients, test de conformité à un standard d'un groupe de coefficients, test de combinaisons linéaires des coefficients, test de comparaison de coefficients, prédiction ponctuelle et par intervalle.

Diagnostic de la régression avec R. Régression linéaire multiple avec le logiciel R. Diagnistic de la régression : graphique des résidus, détection et traitement des points influents et atypiques, détection de la colinéarité, séelction de variables avec les critères Akaike (AIC) et BIC (outil stepAIC du package MASS).

Points aberrants et influents dans la régression (Tanagra, SAS, R). Approches et indicateurs pour la détection des points atypiques et/ou influents. Résidus standardisés, résidus studentisés, leverage, dffits, distance de cook, covratio, dfbetas.

Colinéarité et régression. Identification et traitement de la colinéarité dans la régression linéaire multiple. Cohérence des signes, test de Klein. Sélection de variables, régression sur facteurs de l'ACP (analyse en composantes principales) - recalcul des coefficients dans l'espace de réprésentation initial, régression PLS (partial least square).

Régression linéaire sous Excel. Reprise sous Excel des principaux concepts et formules du cours de régression linéaire multiple. Détail des calculs matriciels. Puis utilisation de la fonction DROITEREG. Pratique de la régression avec les différents tests de significativité. Influence comparées des variables dans la régression. Points atypiques et points influents. Prédiction ponctuelle et par intervalle.

Econométrie avec gretl (Gnu Regression, Econometrics and Time-series Library). Importation et description des données. Pratique de la régression linéaire multiple : estimation des paramètres du modèle, inspection des résultats. Comparaison des résultats de gretl avec ceux du logiciel R.

Descente de gradient sous R. Régression linéaire multiple, traitement des bases à très grande dimensionnalité. Descente de gradient, descente de gradient stochastique. Efficacité de l'approche dans les situations où l'implémentation usuelle - la fonction lm() - de R est inopérante.

Régression Lasso sous Python. Package scikit-learn. Comparaison des résultats de Lasso avec ceux de la régression usuelle proposée par Statsmodels. Lasso path. Validation croisée.

Autoformation avec swirl (sous R). Package swirl pour R. Outil pédagogique pour l'autoformation. Illustration avec la régression linéaire multiple.

Le tableur Gnumeric. Gnumeric, tableur dédié au calcul scientifique. Tour d'horizon de ses fonctionnalités statistiques, dont la régression linéaire multiple.

Analyse discriminante et régression linéaire. Equivalence et formules de transition entre la régression linéaire multiple et l'analyse discriminante pour les problèmes à deux classes. Cas des classes équilibrées (relation directe) et déséquilibrées (nécessitant une correction additionnelle). Illustrations sous Tanagra et R.

PSPP, une alternative à SPSS. Exploration du logiciel PSPP, qui se présente comme un substitut libre à SPSS, avec des fonctionnalités très similaires (dixit son site web). Etude de plusieurs procédures statistiques dont la régression linéaire multiple.

Régression avec le logiciel LazStats (OpenStat). Exploration des fonctionnalités en régression linéaire multiple du logiciel LazStats, équivalent programmé en Lazarus d'OpenStat (programmé en C++). LazStats est multi-plateforme (Windows, Linux).

Régression - Déploiement de modèles. Organisation du fichier de données pour Tanagra dans le cadre du déploiement d'un modèle de régression sur des données non-étiquetées (composé d'individus supplémentaires sur lesquels nous souhaitons effectuer une prédiction à l'aide du modèle). Cas de la régression linéaire multiple, régression PLS, support vector regression (noyau RBF), arbre de régression, régression sur axes factoriels).

Support Vector Regression (SVR). Tanagra et R. Principe des machines à vaste marge appliqué à la régression. Etude du comportement de deux algorithmes issus de la librairie LIBSVM, disponibles sous R et Tanagra. Evaluation des performances prédictives dans un schéma apprentissage-test, pratique peu suitée en régression, pourtant indispensable pour comparer des modèles reposant sur des systèmes de réprésentation différents.


Autres ressources - ECONOMETRIE

Ressources

Accès

Corrélation, Régression Linéaire Simple et Multiple (autres supports, moins détaillés)

Introduction : Corrélation, régression linéaire simple et multiple (R.R.). Un tour d'horizon global de la problématique de la régression, ses propriétés, sa mise en œuvre dans la pratique.

Présentation rapide de la régression linéaire multiple.

Econométrie des variables qualitatives (Régression logistique)

Diaporama. Régression logistique binaire. Estimation, évaluation et interprétation.

Diaporama. Régression logistique polytomique. Estimation, évaluation et interprétation.

Pratique de la régression logistique. Régression logistique binaire et polytomique (17 chapitres). Fascicule de cours.

Page du cours de régression logistique.

Autres références en ligne

Livre "Econométrie" de Régis Bourbonnais. Fiche de lecture de l'ouvrage qui m'a beaucoup inspiré lors de la préparation de mon cours.

Cours de Christope Chesneau. Excellente page avec énormément de choses concernant les probabilités, les statistiques et leur mise en application sous R. La partie Régression (cours EMCO + Modèles de régression + TD + TP) nous intéresse particulièrement. Excellente référence. Site à consulter absolument.

NIST -- Handbook of Statistical Methods : voir en particulier le chapitre Models, la démarche de modélisation qui y est décrite peut servir de référence pour les dossiers. Les autres chapitres sont tout aussi intéréssants pour peu que l'on s'intéresse au traitement des données.

Un portail sur l'inférence statistique et les tests, cours et exercices en ligne, etc. (voir la section Prediction)

Fichiers exemples en relation avec le cours

La régression simple : estimation des coefficients, test de la régression et des coefficients
Sujet : Expliquer les rendements agricoles

La régression multiple : estimation et tests
Détection des observations atypiques
Sélection de variables
Sujet : Expliquer la consommation des véhicules

Détecter les ruptures de structures, identifier leur nature
Sujet : extrait du livre de Johnston pp.135

Régression sur des exogènes qualitatives, interprétation des coefficients
Sujet : expliquer le niveau des loyers selon le lieu de résidence

TD : Régression et projection
Sujet : expliquer les homicides dans la ville de DETROIT

TD : Régression, détection de la colinéarité et sélection automatique de variables
Sujet : expliquer le taux de CO dans les cigarettes

Didacticiels. Mise en oeuvre de la régression linéaire multiple avec le logiciel gratuit TANAGRA et d'autres.
Description, jeux de données et résolution.

Quelques serveurs de données. Ca peut être utile pour les exercices, les dossiers. Certains sont particulièrement intéressants car les données sont accompagnées de commentaires : quels sont les traitements les plus appropriés, les résultats que l'on devrait obtenir, les problèmes qui ne manqueront pas de perturber l'analyse.

DASL
StatLib
DELVE
RegGraph

Logiciels gratuits (autres que R et Python)

Une collection de macros EXCEL qui permettent d'exécuter automatiquement les principales opérations de la régression linéaire multiple : statistiques descriptives, estimation des paramètres, analyse des résidus, étude des points atypiques, étude la colinéarité.
Ce travail a été réalisé en stage de M1 au sein du laboratoire ERIC par Mlle NGUYEN LAO Bao Truc.

REGRESS32 : un logiciel d'économétrie qui suit à la lettre le programme de l'IUP IDS -- L3 et M1.
Quelques fonctionnalités disponibles : régression linéaire multiple, analyse des résidus -- test de normalité à l'aide du skewness et du kurtosis, détection des points atypiques (LEVERAGE et RSTUDENT), détection et traitement de l'autocorrélation, détection et traitment de l'hétéroscédasticité, graphique des résidus.
Le logiciel traite les fichiers au format texte (séparateur tabulation). Avantage de cette méthode, le format texte est universel (Windows, Unix, etc.) et n'est pas susceptible d'être modifié dans le millénaire qui vient (pas de release intempestive avec des formats non compatibles).
NEW (05/2011) : REGRESS peut s'intégrer dans le tableur EXCEL maintenant via la macro complémentaire SIPINA.XLA ! Il peut traiter directement les données chargées dans le tableur. Voir le premier lien ci-contre.

TANAGRA : un logiciel de statistique, d'économétrie et d'analyse de données.
La régression linéaire multiple est disponible, ainsi que la sélection progressive de variables (FORWARD SELECTION) fondé sur le calcul des corrélations partielles. Des tutoriels en ligne permettent de se familiariser avec les fonctionnalités de l'outil. Le mode d'utilisation du logiciel est très proche des logiciels commerciaux tels que SPAD (c), CLEMENTINE de SPSS(c), ENTERPRISE MINER de SAS (c), DATA MINER de STATISTICA (c). Il peut charger directement les fichiers au format EXCEL (c).
N.B.: Pour les curieux, le code source DELPHI (c) est téléchargeable, il vous est possible de modifier le logiciel pour y ajouter de nouvelles techniques.

OPENSTAT : un logiciel de statistique et d'économétrie.
Très simple d'utilisation, il propose de nombreuses techniques relatives à la régression multiple linéaire : sélection progressive, sélection backward, régression logistique. Le niveau technique proposé est très bon.
Il ne traite que les fichiers texte (séparateur tabulation que l'on peut générer facilement à partir d'un tableur), très intéressant, une version DELPHI avec code source peut être téléchargée gratuitement. Une documentation complète est disponible.



GRETL : un logiciel d'économétrie multi-plates-formes.
Très simple d'utilisation, il propose la régression multiple linéaire mais également d'autres techniques spécifiques de régression telles que la régression pondérée, le traitement de l'hétéroscédascticité. Il est également possible de calculer très simplement des statistiques descriptives. Le niveau technique proposé est très intéressant.
Atout indéniable, il charge directement les fichiers EXCEL (c) et on a accès à une documentation convenable.

ARC : un logiciel de statistique qui vient en complément du livre Applied Regression Including Computing and Graphics by R. Dennis Cook and Sanford Weisberg, published by John Wiley & Sons in August, 1999 (ISBN 0-471-31711-X).
Beaucoup de possibilités en matière de régression, de très bonnes fonctionnalités graphiques. Le logiciel ne supporte que le format LSP (LISP), même si c'est un format texte, la préparation des données selon le spécifications requises reste fastidieux.

PopTools : un logiciel de statistique qui se présente comme un add-in pour EXCEL (c).
Beaucoup de fonctionnalités statistiques, mais surtout il peut profiter de tout l'arsenal de traitement de données déjà présent dans le tableur. De très nombreuses techniques statistiques et d'analyse de données sont disponibles (ACP, ANOVA, etc.), y compris la régression linéaire multiple.

DATAPLOT : un excellent logiciel du National Institue of Standards and Technology -- Statistical Enginnering Division [NIST].
Une richesse énorme, des calculs très précis, les résultats que le logiciel propose servent souvent de référence pour les différentes implémentations réalisées par les autres programmeurs (je me compare systématiquement à eux). Ils offrent une bibliothèque de données tests, il est également possible d'effectuer des traitement sur ses propres données et... c'est là que le bât blesse. Les programmeurs de cet outil ne doivent pas connaître le concept "user-friendly", la profondeur des menus et leur imbrication s'apparente à un labyrinthe sans fin.


Ricco Rakotomalala