OBJECTIFS
Beaucoup d'applications modernes (génomique, finance, e-marketing, etc.) requièrent de manipuler et traiter des données de très grande dimension. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type de données s'appelle l'apprentissage statistique («statistical machine-learning»). Il s'agit, in fine, de produire des outils de prédiction et d'aide à la décision dédiés à une application spécifique. L'apparition d'algorithmes très performants pour la classification de données en grande dimension, tels que le boosting ou les Support Vector Machines dans le milieu des années 90, a progressivement transformé le champ occupé jusqu'alors par la statistique traditionnelle qui s'appuyait en grande partie sur le prétraitement réalisé par l'opérateur humain. En s'appuyant sur la théorie popularisée par Vapnik (The Nature of Statistical Learning, 1995), un nouveau courant de recherche est né: il se situe à l'interface entre les communautés mathématique et informatique et mobilise un nombre croissant de jeunes chercheurs tournés vers les applications liées à l'analyse de données massives. Dans ce module, on présentera le domaine, ses fondements théoriques, les problèmes qu'il permet d'aborder (apprentissage supervisé/non supervisé, batch/online, par renforcement, multi-tâche, asynchrone, etc.) et les approches algorithmiques les plus populaires.
«Nothing is more practical than a good theory» - V. Vapnik
MODALITÉS
- 6 séances de Cours/TD de 3h (1h30+1h30)
- 1 examen écrit de 3h
PROGRAMME
L’objectif du cours est de découvrir les enjeux et paradigmes du "machine learning", une discipline en plein essor à l’interface des mathématiques (probabilités/ statistiques, optimisation) et de l’informatique et qui joue aujourd’hui un rôle majeur en matière d’innovation technologique. Il s’agira ici d’en explorer quelques concepts et techniques essentiels, principalement autour du problème fondamental de la "classification supervisée" (i.e. "reconnaissance de formes"). Il se déroulera sur six séances de 3h incluant:
- une partie ‘cours magistral’ lors de laquelle seront formulés les problèmes et
décrites certaines solutions de l’état de l’art ;
- une partie ‘travaux dirigés’ pour les séances d’exercices.
Séance 1 - 20/09
- Introduction générale du cours : repères historiques, enjeux, applications,
nomenclature des problèmes
- Le problème de la classification binaire (reconnaissance de formes) :
Formalisme – Optimalité Lectures conseillées: Chapitre 2 de (1), Chapitres 1 et 2 de (9), article (4)
Séance 2 - 27/09
- Théorie probabiliste de la classification - Minimisation empirique du risque
- Théorie de Vapnik-Chervonenkis – Complexité combinatoire - Moyennes de
Rademacher
- Exercices Lectures conseillées: articles (3) et (4)
Séance 3 - 04/10
- Premières stratégies d’apprentissage supervisé, modélisation et moyennes locales: régression logistique - perceptron - arbres de classification – K-plus proches voisins - réseaux de neurones Lectures conseillées: Chapitres 4 et 9 de (1)
Séance 4 - 11/10
- Evaluation de l’erreur et sélection de modèles : plan expérimental – bootstrap –
validation croisée – minimisation structurelle du risque
- Ensemble Learning: Bagging, Boosting et Forêts Aléatoires Lectures conseillées: Chapitre 7 de (1)
Séance 5 - 18/10
- Les machines à vecteurs support (SVM) : linéaires/non linéaires
- «Kernel trick»: ACP, régression Lectures conseillées: (8) et (9)
Séance 6 - 25/10
- Au delà des problèmes d’apprentissage ‘locaux’ (classification, regression,
estimation de densité): clustering, ranking, détection d’anomalies
DOCUMENTS PEDAGOGIQUES
Les «slides» du cours seront disponibles en version électronique. On se réfèrera en particulier aux documents suivants.
- Friedman, Hastie & Tibshirani (2009). The Elements of Statistical Learning. Third edition, Springer. Disponible en ligne.
- Bousquet, Boucheron & Lugosi (2004). Introduction to statistical learning theory. In O. Bousquet, U.V. Luxburg, G. Rätsch (editors), Advanced Lectures in Machine Learning, Springer, pp. 169-207, 2004. Disponible en ligne.
- Bousquet, Boucheron & Lugosi (2004). Concentration Inequalities. In Advanced Lectures in Machine Learning, Springer, pp. 208-240. Disponible en ligne.
- Kulkarni, G. Lugosi & S. Venkatesh (1998). Learning Pattern Classification. A Survey. 1948-1998 Special Commemorative Issue of IEEE Transactions on Information Theory, vol.44, 2178-2206. Reprinted in S. Verdú, S.W. McLaughlin (editors.), Information Theory: 50 Years of Discovery, IEEE Press, New York, 1999. Disponible en ligne.
- Cesa-Bianchi & Lugosi (2006) Prediction, Learning, and Games. Cambridge.
University Press.
- Devroye, Györfi & Lugosi (1996) A Probabilistic Theory of Pattern Recognition.
Springer
- Györfi, Kohler, Krzyzak & Walk (2002) A Distribution-Free Theory of
Nonparametric Regression. Springer
- Burgess. A Tutorial on SVM for Pattern Recognition. Kluwer. Disponible en ligne.
- Vapnik. The Statistical Nature of Learning Theory. Springer.
- Responsable: Clemencon Stéphan
- Responsable: Clevenot Stéphanie
- Responsable: Irurozki Ekhine