Data science, machine learning, statistique

Cette page recense les supports utilisés pour mes enseignements de Machine Learning, Data Mining et de Data Science au sein de la filière info-stat de l'Université Lyon 2, principalement en Master 2 Statistique et Informatique pour la Science des donnéEs (SISE), formation en data science, dans le cadre du traitement statistique des données et de la valorisation des big data. Je suis très attentif à la synergie forte entre l'informatique et les statistiques dans ce diplôme, ce sont là les piliers essentiels du métier de data scientist.

Attention, pour la majorité, il s'agit de « slides » imprimés en PDF, donc très peu formalisés, ils mettent avant tout l'accent sur le fil directeur du domaine étudié et recensent les points importants. Pour avoir le détail des explications, les formules et les démonstrations adéquates, il faut (1) venir au cours, (2) récupérer des supports avec un contenu rédactionnel plus conséquent (voir notamment la colonne autres dans le tableau ci-dessous).

Certains supports peuvent être accompagnés de fichiers de données sous forme de classeurs EXCEL utilisés pour illustrer le cours ; parfois également, des didacticiels montrant la mise en oeuvre de la technique avec un logiciel gratuit est proposé. Les logiciels utilisés sont principalement SIPINA pour les arbres de décision, TANAGRA, PYTHON et R pour les autres techniques. De très nombreux tutoriels permettent d'appréhender la mise en oeuvre de ces techniques de Data Mining vus en cours.

Cette page est bien entendu ouverte à tous les statisticiens, data miner et data scientist, étudiants ou pas, de l'Université Lyon 2 ou d'ailleurs. Ces outils (supports de cours, fascicules, tutoriels, logiciels) sont totalement gratuits quel que soit le contexte d'utilisation. Il en sera toujours ainsi (non, non, pas de bouquins en préparation qui pourraient remettre en cause l'existence de ce site, les PDF de mes ouvrages sont -- et seront toujours -- accessibles gratuitement en ligne).

Nos étudiants de Master 1 (min. 3 mois) et Master 2 (min. 4 mois) doivent effectuer un stage en entreprise ou laboratoire pour valider leur année. Le cas échéant, vous pouvez m'envoyer vos offres (ricco.rakotomalala@univ-lyon2.fr), je me chargerai de les diffuser auprès des étudiants. Vous pouvez également m'écrire si vous souhaitez affiner votre projet. Habituellement, les stages s'étendent sur la période allant de mi-mars à fin septembre.

Nous vous remercions par avance. Vous contribuerez à donner de meilleures conditions de travail aux étudiants que nous formons.

Ressources

Supports

Autres

Données

Tutoriels

Data Science -- Generalités

Portail Data Mining – Ressources en ligne

Un portail de portails, un méta-portail en somme, le site vaut avant tout par l'effort d'organisation réalisé. La culture ambiante est très machine & statistical learning.

-

-

Introduction au Data Mining

Présentation du Data Mining. Différenciation par rapport aux techniques exploratoires des données (Statistique exploratoire, Analyse de Données, etc.).

Catégorisation des techniques de fouille de données selon les objectifs d'une étude et le type des données.

Les ressources bibliographiques, les ressources en ligne, les logiciels et les serveurs de données.

Deux exemples en marketing et catégorisation de textes.

-

Introduction à la data science – Du data mining au big data analytics

Data Science : Evolution, révolution, replâtrage des statistiques (modélisation statistique) ? Présentation du « data science » sous le prisme de l’évolution des pratiques et enjeux de l’analyse de données (data analytics) liée à la multiplicité des données disponibles, au sein des entreprises (data mining), mais aussi à l’extérieur des l’entreprises. Données multi-sources (entreprises, collectivités [amplifié par le phénomène « open data »], le citoyen lambda : internet source inépuisable d’informations…), multimodales (tout peut transmettre des informations : ordinateur, smartphone, GPS, même sa propre TV, etc.), multi-formats (texte, vidéo, images, etc.). Place centrale de la volumétrie dans ce nouveau contexte (big data analytics). Tour d'horizon du métier de data scientist.

-

Machine Learning -- Analyse prédictive et Scoring

Introduction à l'apprentissage supervisé

Fondements bayesien de l'apprentissage supervisé. Estimation des probabilités avec le modèle multinomial complet. élaboration d'une règle d'affectation. Evaluation de l'apprentissage, la matrice de confusion et les ratios associés. Schéma holdout : principe de partitionnement des données en échantillons « d'apprentissage » et de « test ».

Arbres de décision – Introduction

L'apprentissage par partitionnement. Construction d'un arbre de décision sur un jeu de données synthétique. Principaux points à considérer lors de l'induction d'un arbre de décision à partir de données.

Post-élagage des arbres de décision - La méthode CART

Importance de la taille (complexité, en nombre de feuilles par exemple) de l'arbre sur ses performances prédictives. Quelques techniques de pré et post élagage. Méthodologie de post-élégage CART (Classification And Regression Trees), implémentée dans la librairie "scikit-learn" pour Python.



Arbres de décision – CHAID, C4.5 et CART

Les trois principales méthodes d'induction d'arbres proposés dans les logiciels. Les différences et les points communs.

Arbres de régression

La régression par arbres. Une méthode non-linéaire de régression. Rapprochement avec les arbres de décision.

Analyse discriminante prédictive

Un modèle paramétrique de discrimination. Analyse discriminante de Fisher. évaluation globale du modèle, évaluation individuelle des variables.

Régression logistique

Le modèle LOGIT. Estimation, évaluation globale et évaluation individuelle des variables.
Avec le fascicule de cours "Pratique de la Régression Logistique - Régression logistique binaire et polytomique" (11 chapitres) 2e colonne

Régression logistique polytomique

Régression logistique lorsque la variable dépendante Y prend plus de 2 valeurs. Régression logistique multinomiale lorsque Y est nominale. Régression logistique polytomique ordinale lorsque Y est ordinale (odds adjacents, odds cumulatifs proportionnels).

Classifieur Bayesien Naïf (Le modèle d'indépendance conditionnelle)

Naive Bayes Classifier. Principe de l'indépendance conditionnelle. Cas des prédicteurs continus. Cas des prédicteurs discrets. Construction d'un modèle explicite linéaire. Sélection de variables.

, ,

,

Bagging, Random Forest, Boosting

Méthodes ensemblistes basées sur des apprentissages répétés (algorithme sous jacent : arbre de décision) appliquées à des variantes de l'ensemble d'apprentissage. Mesures d'importance des variables. Erreur OOB (out-of-bag). Impact sur le biais et la variance des classifieurs.

Stacking

Combinaison de modèles prédictifs de natures différentes. Efficacité globale basé sur l'efficacité individuelle des classifieurs et leur hétérogénéité (décorrélation). Approches pdiverses pour l'agrégation des classifieurs.

Gradient boosting

Généralisation du boosting avec l'introduction explicite de fonctions de coûts. Importance du paramétrage.

Support Vector Machine (SVM)

Machines à vecteurs de support. Séparateur à Vaste Marge. Principe de la maximisation de la marge. Marge souple (soft margin). Classifieurs linéaires et classifieurs non-linéaires avec l'astuce du noyau (kernel trick). Fonction Noyau.

Descente de gradient

Descente de gradient. Descente de gradient stochastique. Régression linéaire multiple. Régression logistique. Apprentissage en très grande dimension.

,

,

Régression régularisée - Ridge, Lasso, Elasticnet

Régression pénalisée. Fonctions de pénalité. Coefficients de pénalité. Descente de gradient. Régression linéaire multiple. Régression logistique. Apprentissage en très grande dimension.

Discrétisation des variables quantitatives

Découpage en classe d'une variable quantitative. Méthodes non-supervisées et supervisées (chi-merge, mdlpc).

Induction de règles prédictives

Construction de bases de règles en analyse prédictive. Conversion des arbres en règles, C4.5 rules, listes de décision (decision list), règles non-imbriquées (non-ordonnées), règles d'association prédictives, règles prédictives floues, stratégies top-down vs. stratégies bottom-up, algorithmes génétiques pour l'induction de règles.

Scoring - Le ciblage marketing

Le ciblage clientèle. Construction et lecture de la courbe LIFT (GAIN CHART).

Analyse RFM (Récence - Fréquence - Montant)

Segmentation RFM (récénce-fréquence-montant). Finalité, démarche, usage, variantes, limites.

-

Grille de score

Elaboration de la grille de score à partir des résultats de la régression logistique. Méthode Disqual et scoring.

-

Filtrage des prédicteurs en apprentissage supervisé.

Approche FILTRE préalable à l'apprentissage supervisé. Techniques de ranking. Techniques de sélection basées sur la corrélation : information mutuelle, entropie de Shannon, rapport de corrélation, lambda de Wilks.

Intégration des coûts de mauvais classement en apprentissage supervisé

Prise en compte des coûts pour l'évaluation et la construction des modèles prédictifs. Correction des règles d'affectation, techniques intégrées, bagging, la méthode MetaCost.

Courbe ROC

évaluation d'un classifieur à l'aide de la courbe ROC. Le critère AUC.

Normalisation des scores

Rendre comparable des scores fournis par des méthodes différentes. Ramener dans l'intervalle [0 ; 1] et harmonisation des distributions. Diagramme de fiabilité.



Quelques méthodes non-paramétriques de discrimination

Deux méthodes non-paramétriques de classement dérivés du schéma bayesien : la méthode des K-plus proches voisins et le modèle d'indépendance conditionnelle (Bayesien Naïf -- voir plus haut pour plus de détails sur cette méthode).

-

-

-

Réseaux de neurones - Perceptron simple et multi-couches

Introduction aux réseaux de neurones artificiels pour l'apprentissage supervisé. La Perceptron. Passage du modèle linéaire au modèle non-linéaire : le perceptron multi-couches.

Tirage rétrospectif et redressement des résultats

échantillonnage non-représentatif : redressement des résultats. Modification du seuil d'affectation basé sur le score. Utilisation de la courbe ROC à cet effet.



Algorithmes d'échantillonnage

Tirage séquentiel. Méthode de sélection-rejet. Reservoir sampling. Détermination de la taille nécessaire de la base d'apprentissage.

Méthodes de ré-échantillonnage pour l'évaluation des performances

Inadéquation de l'évaluation en resubstitution. Le schéma apprentissage-test. Les techniques de ré-échantillonnage : validation croisée, leave-one-out, bootstrap. Comparaison des performances des techniques supervisées.

Outils agnostiques pour l'interprétation des modèles.

Explicabilité des modèles. Outils indépendants (agnostiques) de l'algorithme de machine learning pour comprendre la nature de la relation entre les explicatives et la variable cible dans un modèle prédictif. Permutation feature importance. ICE (individual conditional expectation) et PDP (partial dependence plot). SHAP (shapley additive explanations).

Règles d'Association

Règles d'association

Construction des règles d'association : items, itemsets fréquents, règles. Les critères supports, confiance, lift.

-

Analyse des Données -- Analyse Factorielle

Analyse en Composantes Principales (ACP)

Construction des axes factoriels. Cercle de corrélations. Projections. Utilisation des variables et individus supplémentaires. Analyse en facteurs principaux.

Analyse (Factorielle) des Correspondances Multiples (AFCM ou ACM)

Construction des axes factoriels. Projections et interprétations. Utilisation des variables et individus supplémentaires.

Analyse Factorielle de Données Mixtes (AFDM)

Analyse factorielle pour les variables actives quantitatives et qualitatives. Construction des axes factoriels. Lecture des résultats.

Analyse Factorielle des Correspondances (AFC)

Tableau de contingence. Construction des axes factoriels. Projections et interprétations. Projection des points supplémentaires avec un tableur.

Analyse Factorielle Discriminante (AFD)

Analyse discriminante descriptive (ADD). Produire des axes factoriels qui permettent de discerner au mieux des groupes d'individus prédéfinis.

Analyse des Correspondances Discriminante (ACD)

Analyse factorielle discriminante pour les descripteurs qualitatifs. Produire des variables synthétiques (des facteurs) à partir des indicatrices des descripteurs. Elles permettent de discerner au mieux des groupes d'individus prédéfinis.

Positionnement multidimensionnel (MDS)

Multidimensional Scaling (MDS). Tableau de distances / dissimilarités, projection des individus dans un espace euclidien. MDS classique, MDS métrique, MDS non-métrique. Lien avec l'analyse en composantes principales (ACP). Extension du MDS aux matrices des corrélations.

Classification automatique -- Clustering -- Apprentissage non-supervisé

Classification ascendante hiérarchique - CAH

Classification automatique. Construire une typologie (des groupes "similaires" d'individus) en utilisant la classification ascendante hiérarchique. Détection du nombre de classes. Tandem analysis (classification sur axes factoriels). Classification mixte - Traitement des grands fichiers.

Méthode des centres mobiles - K-Means

Classification automatique. Construire une typologie (des groupes "similaires" d'individus) en utilisant la méthode des K-Means. Détection du bon nombre de classes. K-Means pour variables qualitatives et mixtes (qualitatives et quantitatives). Classification floue - Fuzzy C-Means. Classification de variables - Classification autour des variables latentes.

Caractérisation des classes

Interprétation des groupes issus de la classification automatique. Caractérisation univariée et multivariée. Utilisation des variables actives et illustratives.

Cartes topologiques de Kohonen

Cartes auto-organisatrices de Kohonen. Réseaux de neurones. Réduction de dimensionalité. Représentations graphiques. Interprétation des résultats. Couplage avec la CAH (classification ascendante hiérarchique).

Arbres de classification

Construire une typologie (des groupes "similaires" d'individus) en utilisant les arbres de classification. Classification automatique. Clustering en anglais. La méthode s'apparente à une généralisation des arbres de décision - arbres de régression.

Classification de variables

Classification de variables autour des composantes latentes (VARCLUS). L'idée toujours est de découvrir les principales "dimensions" que recèlent les données. La différence ici est que l'on regroupe les variables (selon leur redondance) plutôt que les individus. Les applications vont au delà de la structuration des données.

Classification de variables qualitatives - Classification de modalités

CAH de variables qualitatives basée sur une matrice des dissimilarités déduite du v de Cramer. Approches fondées sur la notion de variables latentes. Insuffisances de la classification de variables qualitatives. Classification de modalités de variables qualitatives. Indice de Dice. Tandem clustering via la projection des modalités dans un espace issu de l'analyse des correspondances multiples.

Régression

Portail régression linéaire multiple

Portail. Données et liens.

-

-

-

Régression linéaire multiple

Problématique de la régression. La régression linéaire simple et multiple. Notations, hypothèses et estimation. Evaluation. Mise en oeuvre dans les logiciels et lecture des résultats.

,

Régression linéaire multiple - Pratique de la régression - Diagnostic et sélection de variables

Analyse graphique des résidus. Test de normalité des résidus. Test de Durbin-Watson et des séquences. Détection et traitements des points atypiques et influents. Colinéarité et sélection de variables. Régression sur exogènes qualitatives. Détection des ruptures de structure, test de Chow.

,

Détection des points atypiques et influents.

Calcul des indicateurs usuels pour la détection des points aberrants et influents dans la régression : Leverage, Résidu Standardisé, Résidu Studentisé, DFFITS, Distance de Cook, COVRATIO, DFBETAS

Régression PLS

Détection et traitement de la colinéarité : la régression sur facteurs et la régression PLS.

Régression linéaire pour le classement.

Utiliser la régression linéaire multiple pour le classement. Comparaison avec la régression logistique et l'analyse discriminante linéaire.

Statistique

Statistique descriptive

Description statistique, distribution empirique, indicateurs et graphiques.

Probabilités et Statistique

Analyse combinatoire, Théorie des Probabilités, Lois de Probabilités d'usage courant, Test d'adéquation à une loi.

Statistique Inférentielle

Estimation ponctuelle. Estimation par intervalle. Théorie des tests. Quelques tests paramétriques usuels.

-

Biostatistique

Probabilités et Statistiques. Statistique inférentielle : Estimation ponctuelle et par intervalle, Théorie des tests, etc... à l'usage des biologistes.

-

-

Test de normalité

Test statistique d'adéquation à la loi normale (normality test) : test de Shapiro Wilk, test de Lilliefors, test d'Anderson-Darling, test de D'Agostino, test de Jarque-Bera. Test de symétrie des distributions : test basé sur le coefficient d'asymétrie, test de Wilcoxon, test de Van der Waerden.

Corrélation et corrélation partielle

Covariance, corrélation linéaire, corrélations croisées, tests de significativité. Corrélation bisériale ponctuelle, corrélation mutuelle, le coefficient phi, rho de Spearman, tau de Kendall, rapport de corrélation. Corrélations partielles et semi-partielles d'ordre p. Corrélation partielle de rangs.

Mesures d'association pour variables nominales

Test d'indépendance du KHI-2. Mesures dérivées du KHI-2 (T de Tschuprow, v de Cramer...). Mesures asymétriques d'association (PRE measures) : Lambda et Tau de Goodman & Kruskal, U de Theil. Eléments spécifiques aux tableaux 2 x 2 : Q de Yule, Odds-ratio, Risque relatif, correction de Yates.
Coefficient de concordance pour variables nominales : Kappa de Cohen, Kappa de Fleiss, Kappa généralisé. Mesures d'association pour les variables ordinales (Gamma de Goodman et Kruskal, Tau-b et Tau-c de Kendall, d de Sommers).

, ,

,

Comparaison de populations - Tests paramétriques

Comparaison de 2 moyennes, échantillons indépendants, variances égales et inégales. Comparaison de 2 moyennes, échantillons appariés. Comparaison de variances, échantillons indépendants et appariés. Comparaison de K moyennes, échantillons indépendants (ANOVA) et appariés (blocs aléatoires complets). Test multivariés : T2 de Hotelling, Lambda de Wilks, Trace de Pillai. Test de Bartlett pour comparaison des matrices de variance covariance. MANOVA.

,

, ,

, ,

Comparaison de populations - Tests non paramétriques

Test de Kolmogorov-Smirnov, test de Kuiper, test de Cramer - von Mises, test de Wilcoxon-Mann-Whitney, test de Kruskal-Wallis, test de Mood, test de Klotz, test des signes, test des rangs signés de Wilcoxon pour échantillons appariés, anova de Friedman, test de Mc Nemar, test Q de Cochran, test de Jonckheere-Terpstra, test de Page


Ricco Rakotomalala