Ressources
|
Supports
|
Autres
|
Données
|
Tutoriels
|
Data Science -- Generalités |
Portail Data Mining – Ressources en
ligne
Un portail de portails, un méta-portail
en somme, le site vaut avant tout par l'effort d'organisation
réalisé. La culture ambiante est très machine
& statistical learning.
|
|
-
|
-
|
|
Introduction au Data Mining
Présentation du Data Mining.
Différenciation par rapport aux techniques exploratoires
des données (Statistique exploratoire, Analyse de Données,
etc.).
Catégorisation des techniques de fouille
de données selon les objectifs d'une étude et le
type des données.
Les ressources bibliographiques, les ressources
en ligne, les logiciels et les serveurs de données.
Deux exemples en marketing et catégorisation
de textes.
|
|
|
-
|
|
Introduction à la data science – Du data mining au big data analytics
Data
Science : Evolution, révolution, replâtrage des statistiques
(modélisation statistique) ? Présentation du « data science » sous le
prisme de l’évolution des pratiques et enjeux de l’analyse de données
(data analytics) liée à la multiplicité des données disponibles, au
sein des entreprises (data mining), mais aussi à l’extérieur des
l’entreprises. Données multi-sources (entreprises, collectivités
[amplifié par le phénomène « open data »], le citoyen lambda : internet
source inépuisable d’informations…), multimodales (tout peut
transmettre des informations : ordinateur, smartphone, GPS, même sa
propre TV, etc.), multi-formats (texte, vidéo, images, etc.). Place
centrale de la volumétrie dans ce nouveau contexte (big data
analytics). Tour d'horizon du métier de data scientist.
|
|
|
-
|
|
Machine Learning -- Analyse prédictive et Scoring |
Introduction à l'apprentissage
supervisé
Fondements bayesien de l'apprentissage
supervisé. Estimation des probabilités avec le
modèle multinomial complet. élaboration d'une règle
d'affectation. Evaluation de l'apprentissage, la
matrice de confusion et les ratios associés. Schéma holdout : principe de partitionnement des données
en échantillons « d'apprentissage » et de « test ».
|
|
|
|
|
Arbres de décision –
Introduction
L'apprentissage par partitionnement.
Construction d'un arbre de décision sur un jeu de données
synthétique. Principaux points à considérer
lors de l'induction d'un arbre de décision à partir
de données.
|
|
|
|
|
Post-élagage des arbres de décision - La méthode CART
Importance de la taille (complexité, en nombre de feuilles par exemple) de l'arbre sur ses performances prédictives. Quelques techniques de pré et post élagage. Méthodologie de post-élégage CART (Classification And Regression Trees), implémentée dans la librairie "scikit-learn" pour Python.
|
|
|
|
|
Arbres de décision – CHAID,
C4.5 et CART
Les trois principales méthodes
d'induction d'arbres proposés dans les logiciels. Les
différences et les points communs.
|
|
|
|
|
Arbres de régression
La régression par arbres. Une méthode
non-linéaire de régression. Rapprochement avec les
arbres de décision.
|
|
|
|
|
Analyse discriminante prédictive
Un modèle paramétrique de
discrimination. Analyse discriminante de Fisher. évaluation
globale du modèle, évaluation individuelle des
variables.
|
|
|
|
|
Régression logistique
Le modèle
LOGIT. Estimation, évaluation globale et évaluation
individuelle des variables.
Avec le fascicule de cours "Pratique de la Régression Logistique - Régression logistique binaire et polytomique" (11 chapitres) 2e colonne
|
|
|
|
|
Régression logistique polytomique
Régression logistique lorsque la variable dépendante Y prend plus de 2 valeurs.
Régression logistique multinomiale lorsque Y est nominale. Régression logistique polytomique ordinale lorsque Y est ordinale
(odds adjacents, odds cumulatifs proportionnels).
|
|
|
|
|
Classifieur Bayesien Naïf (Le modèle d'indépendance conditionnelle)
Naive Bayes Classifier. Principe de l'indépendance conditionnelle. Cas des prédicteurs continus. Cas des prédicteurs discrets. Construction d'un modèle explicite linéaire. Sélection de variables.
|
|
|
,
,
|
,
|
Bagging, Random Forest, Boosting
Méthodes ensemblistes basées sur des apprentissages répétés (algorithme sous jacent : arbre de décision) appliquées à des variantes de l'ensemble d'apprentissage. Mesures d'importance des variables. Erreur OOB (out-of-bag). Impact sur le biais et la variance des classifieurs.
|
|
|
|
|
Stacking
Combinaison de modèles prédictifs de natures différentes. Efficacité globale basé sur l'efficacité individuelle des classifieurs et leur hétérogénéité (décorrélation). Approches pdiverses pour l'agrégation des classifieurs.
|
|
|
|
|
Gradient boosting
Généralisation du boosting avec l'introduction explicite de fonctions de coûts. Importance du paramétrage.
|
|
|
|
|
Support Vector Machine (SVM)
Machines à vecteurs de support. Séparateur à Vaste Marge. Principe de la maximisation de la marge. Marge souple (soft margin). Classifieurs linéaires et classifieurs non-linéaires avec l'astuce du noyau (kernel trick). Fonction Noyau.
|
|
|
|
|
Descente de gradient
Descente de gradient. Descente de gradient stochastique. Régression linéaire multiple. Régression logistique. Apprentissage en très grande dimension.
|
|
|
,
|
,
|
Régression régularisée - Ridge, Lasso, Elasticnet
Régression pénalisée. Fonctions de pénalité. Coefficients de pénalité. Descente de gradient. Régression linéaire multiple. Régression logistique. Apprentissage en très grande dimension.
|
|
|
|
|
Discrétisation des variables quantitatives
Découpage en classe d'une variable quantitative. Méthodes non-supervisées et supervisées (chi-merge, mdlpc).
|
|
|
|
|
Induction de règles prédictives
Construction de bases de règles en analyse prédictive. Conversion des arbres en règles, C4.5 rules, listes de décision (decision list), règles non-imbriquées (non-ordonnées), règles d'association prédictives, règles prédictives floues, stratégies top-down vs. stratégies bottom-up, algorithmes génétiques pour l'induction de règles.
|
|
|
|
|
Scoring - Le ciblage marketing
Le ciblage clientèle. Construction et
lecture de la courbe LIFT (GAIN CHART).
|
|
|
|
|
Analyse RFM (Récence - Fréquence - Montant)
Segmentation RFM (récénce-fréquence-montant). Finalité, démarche, usage, variantes, limites.
|
|
|
-
|
|
Grille de score
Elaboration de la grille de score à partir des résultats de la régression logistique. Méthode Disqual et scoring.
|
|
|
|
-
|
Filtrage des prédicteurs en apprentissage supervisé.
Approche FILTRE préalable à l'apprentissage supervisé. Techniques de ranking. Techniques de sélection basées sur la corrélation : information mutuelle, entropie de Shannon, rapport de corrélation, lambda de Wilks.
|
|
|
|
|
Intégration des coûts de mauvais classement en apprentissage supervisé
Prise en compte des coûts pour l'évaluation et la construction des modèles prédictifs. Correction des règles d'affectation, techniques intégrées, bagging, la méthode MetaCost.
|
|
|
|
|
Courbe ROC
évaluation d'un classifieur à
l'aide de la courbe ROC. Le critère AUC.
|
|
|
|
|
Normalisation des scores
Rendre comparable des scores fournis par des
méthodes différentes. Ramener dans l'intervalle [0 ;
1] et harmonisation des distributions. Diagramme de fiabilité.
|
|
|
|
|
Quelques méthodes non-paramétriques
de discrimination
Deux méthodes non-paramétriques
de classement dérivés du schéma bayesien : la
méthode des K-plus proches voisins et le modèle
d'indépendance conditionnelle (Bayesien Naïf -- voir plus haut pour plus de détails sur cette méthode).
|
|
-
|
-
|
-
|
Réseaux de neurones - Perceptron
simple et multi-couches
Introduction aux réseaux de neurones
artificiels pour l'apprentissage supervisé. La Perceptron.
Passage du modèle linéaire au modèle
non-linéaire : le perceptron multi-couches.
|
|
|
|
|
Tirage rétrospectif et redressement
des résultats
échantillonnage non-représentatif
: redressement des résultats. Modification du seuil
d'affectation basé sur le score. Utilisation de la courbe
ROC à cet effet.
|
|
|
|
|
Algorithmes d'échantillonnage
Tirage séquentiel. Méthode de sélection-rejet. Reservoir sampling. Détermination de la taille nécessaire de la base d'apprentissage.
|
|
|
|
|
Méthodes de ré-échantillonnage
pour l'évaluation des performances
Inadéquation
de l'évaluation en resubstitution. Le schéma
apprentissage-test. Les techniques de ré-échantillonnage
: validation croisée, leave-one-out, bootstrap. Comparaison des performances des techniques supervisées.
|
|
|
|
|
Outils agnostiques pour l'interprétation des modèles.
Explicabilité des modèles. Outils indépendants (agnostiques) de l'algorithme de machine learning pour comprendre la nature de la relation entre les explicatives et la variable cible dans un modèle prédictif. Permutation feature importance. ICE (individual conditional expectation) et PDP (partial dependence plot). SHAP (shapley additive explanations).
|
|
|
|
|
Règles d'Association |
Règles d'association
Construction des règles d'association :
items, itemsets fréquents, règles. Les critères
supports, confiance, lift.
|
|
|
-
|
|
Analyse des Données -- Analyse Factorielle |
Analyse en Composantes Principales (ACP)
Construction des axes factoriels. Cercle de corrélations. Projections. Utilisation des variables et individus supplémentaires. Analyse en facteurs principaux.
|
|
|
|
|
Analyse (Factorielle) des Correspondances Multiples (AFCM ou ACM)
Construction des axes factoriels. Projections et interprétations. Utilisation des variables et individus supplémentaires.
|
|
|
|
|
Analyse Factorielle de Données Mixtes (AFDM)
Analyse factorielle pour les variables actives quantitatives et qualitatives. Construction des axes factoriels. Lecture des résultats.
|
|
|
|
|
Analyse Factorielle des Correspondances (AFC)
Tableau de contingence. Construction des axes factoriels. Projections et interprétations. Projection des points supplémentaires avec un tableur.
|
|
|
|
|
Analyse Factorielle Discriminante (AFD)
Analyse discriminante descriptive (ADD). Produire des axes factoriels qui permettent de discerner au mieux des groupes d'individus prédéfinis.
|
|
|
|
|
Analyse des Correspondances Discriminante (ACD)
Analyse factorielle discriminante pour les descripteurs qualitatifs. Produire des variables synthétiques (des facteurs) à partir des indicatrices des descripteurs. Elles permettent de discerner au mieux des groupes d'individus prédéfinis.
|
|
|
|
|
Positionnement multidimensionnel (MDS)
Multidimensional Scaling (MDS). Tableau de distances / dissimilarités, projection des individus dans un espace euclidien. MDS classique, MDS métrique, MDS non-métrique. Lien avec l'analyse en composantes principales (ACP). Extension du MDS aux matrices des corrélations.
|
|
|
|
|
Classification automatique -- Clustering -- Apprentissage non-supervisé |
Classification ascendante hiérarchique - CAH
Classification automatique. Construire une typologie (des groupes "similaires" d'individus) en utilisant la classification ascendante hiérarchique. Détection du nombre de classes. Tandem analysis (classification sur axes factoriels). Classification mixte - Traitement des grands fichiers.
|
|
|
|
|
Méthode des centres mobiles - K-Means
Classification automatique. Construire une typologie (des groupes "similaires" d'individus) en utilisant la méthode des K-Means. Détection du bon nombre de classes. K-Means pour variables qualitatives et mixtes (qualitatives et quantitatives). Classification floue - Fuzzy C-Means. Classification de variables - Classification autour des variables latentes.
|
|
|
|
|
Caractérisation des classes
Interprétation des groupes issus de la classification automatique. Caractérisation univariée et multivariée. Utilisation des variables actives et illustratives.
|
|
|
|
|
Cartes topologiques de Kohonen
Cartes auto-organisatrices de Kohonen. Réseaux de neurones. Réduction de dimensionalité. Représentations graphiques. Interprétation des résultats. Couplage avec la CAH (classification ascendante hiérarchique).
|
|
|
|
|
Arbres de classification
Construire une typologie (des groupes "similaires" d'individus) en utilisant les arbres de classification. Classification automatique. Clustering en anglais. La méthode s'apparente à une généralisation des arbres de décision - arbres de régression.
|
|
|
|
|
Classification de variables
Classification de variables autour des composantes latentes (VARCLUS). L'idée toujours est de découvrir les principales "dimensions" que recèlent les données. La différence ici est que l'on regroupe les variables (selon leur redondance) plutôt que les individus. Les applications vont au delà de la structuration des données.
|
|
|
|
|
Classification de variables qualitatives - Classification de modalités
CAH de variables qualitatives basée sur une matrice des dissimilarités déduite du v de Cramer. Approches fondées sur la notion de variables latentes. Insuffisances de la classification de variables qualitatives. Classification de modalités de variables qualitatives. Indice de Dice. Tandem clustering via la projection des modalités dans un espace issu de l'analyse des correspondances multiples.
|
|
|
|
|
Régression |
Portail régression linéaire multiple
Portail. Données et liens.
|
|
-
|
-
|
-
|
Régression linéaire multiple
Problématique de la régression. La régression linéaire simple et multiple. Notations, hypothèses et estimation. Evaluation. Mise en oeuvre dans les logiciels et lecture des résultats.
|
,
|
|
|
|
Régression linéaire multiple - Pratique de la régression - Diagnostic et sélection de variables
Analyse graphique des résidus. Test de normalité des résidus. Test de Durbin-Watson et des séquences. Détection et traitements des points atypiques et influents. Colinéarité et sélection de variables. Régression sur exogènes qualitatives. Détection des ruptures de structure, test de Chow.
|
|
|
,
|
|
Détection des points atypiques et influents.
Calcul des indicateurs usuels pour la détection des points aberrants et influents dans la régression : Leverage, Résidu Standardisé, Résidu Studentisé, DFFITS, Distance de Cook, COVRATIO, DFBETAS
|
|
|
|
|
Régression PLS
Détection et traitement de la colinéarité : la régression sur facteurs et la régression PLS.
|
|
|
|
|
Régression linéaire pour le classement.
Utiliser la régression linéaire multiple pour le classement. Comparaison avec la régression logistique et l'analyse discriminante linéaire.
|
|
|
|
|
Statistique |
Statistique descriptive
Description statistique, distribution empirique, indicateurs et graphiques.
|
|
|
|
|
Probabilités et Statistique
Analyse combinatoire, Théorie des Probabilités, Lois de Probabilités d'usage courant, Test d'adéquation à une loi.
|
|
|
|
|
Statistique Inférentielle
Estimation ponctuelle. Estimation par intervalle. Théorie des tests. Quelques tests paramétriques usuels.
|
|
|
-
|
|
Biostatistique
Probabilités et Statistiques. Statistique inférentielle : Estimation ponctuelle et par intervalle, Théorie des tests, etc... à l'usage des biologistes.
|
|
|
-
|
-
|
Test de normalité
Test statistique d'adéquation à la loi normale (normality test) : test de Shapiro Wilk, test de Lilliefors, test d'Anderson-Darling, test de D'Agostino, test de Jarque-Bera. Test de symétrie des distributions : test basé sur le coefficient d'asymétrie, test de Wilcoxon, test de Van der Waerden.
|
|
|
|
|
Corrélation et corrélation partielle
Covariance, corrélation linéaire, corrélations croisées, tests de significativité. Corrélation bisériale ponctuelle, corrélation mutuelle, le coefficient phi, rho de Spearman, tau de Kendall, rapport de corrélation. Corrélations partielles et semi-partielles d'ordre p. Corrélation partielle de rangs.
|
|
|
|
|
Mesures d'association pour variables nominales
Test d'indépendance du KHI-2. Mesures dérivées du KHI-2 (T de Tschuprow, v de Cramer...). Mesures asymétriques d'association (PRE measures) : Lambda et Tau de Goodman & Kruskal, U de Theil. Eléments spécifiques aux tableaux 2 x 2 : Q de Yule, Odds-ratio, Risque relatif, correction de Yates. Coefficient de concordance pour variables nominales : Kappa de Cohen, Kappa de Fleiss, Kappa généralisé. Mesures d'association pour les variables ordinales (Gamma de Goodman et Kruskal, Tau-b et Tau-c de Kendall, d de Sommers).
|
|
|
,
,
|
,
|
Comparaison de populations - Tests paramétriques
Comparaison de 2 moyennes, échantillons indépendants, variances égales et inégales. Comparaison de 2 moyennes, échantillons appariés. Comparaison de variances, échantillons indépendants et appariés. Comparaison de K moyennes, échantillons indépendants (ANOVA) et appariés (blocs aléatoires complets). Test multivariés : T2 de Hotelling, Lambda de Wilks, Trace de Pillai. Test de Bartlett pour comparaison des matrices de variance covariance. MANOVA.
|
,
|
|
,
,
|
,
,
|
Comparaison de populations - Tests non paramétriques
Test de Kolmogorov-Smirnov, test de Kuiper, test de Cramer - von Mises, test de Wilcoxon-Mann-Whitney, test de Kruskal-Wallis, test de Mood, test de Klotz, test des signes, test des rangs signés de Wilcoxon pour échantillons appariés, anova de Friedman, test de Mc Nemar, test Q de Cochran, test de Jonckheere-Terpstra, test de Page
|
|
|
|
|