L'objectif de ce cours est de donner aux étudiants une introduction complète à l'analyse non-supervisée (réduction de dimension et clustering) et d'acquérir des compétences solides et pratiques pour l'analyse exploratoire des jeux de données actuels, en s'appuyant sur le logiciel R.

Le cours commence par deux séances présentant les fondements de la programmation avec le langage R, ainsi que la manipulation de données et les bibliothèque de représentation graphiques du 'tidyverse'. Les capacités d'interçage de R avec Python sont également abordées.

Le cours présente ensuite les méthodes classiques de réduction de dimension et de clustering dans le détail (ACP, modèles de mélange, k-means, CAH), en abordant plus brièvement les nombreuses approches les généralisant (approches kernel, embedding, etc.).

Enfin, la troisième partie du module propose aux étudiants une série de jeux de données à étudier en groupe à l'aide des méthodes du cours et leurs généralisation. Ces projets constitueront l'essentiel de l'évaluation de ce module.




The objective of this course is to give students a comprehensive introduction to unsupervised analysis (downsizing and clustering) and to acquire solid and practical skills for the exploratory analysis of current data sets, using R software.

The course begins with two sessions presenting the basics of programming with the R language, as well as data manipulation and the tidyverse graphical representation libraries. R's Python interfacing capabilities are also discussed.

The course then presents the classical methods of downsizing and clustering in detail (PCA, blending models, k-means, CAH), with a brief introduction to the many approaches that generalize them (kernel approaches, embedding, etc.).

Finally, the third part of the module proposes to the students a series of data sets to be studied in groups using the methods of the course and their generalization. These projects will constitute the main part of the evaluation of this module.