L'analyse de données moderne s'appuie sur des langages de haut niveau comme Python ou R pour la manipulation et le traitement des données. Toutefois, derrière les bibliothèques standard comme Scikit-Learn se cachent des implémentations dans des langages de bas niveau comme C ou C++ pour une exécution optimisée et une gestion efficace des ressources mémoire ou de calcul. D'où l'intérêt de ce cours, dont l'objectif est double : d'une part, se familiariser avec certaines des techniques standard d'analyse de donnéés et d'apprentissage machine ; d'autre part, acquérir une compétence en programmation C/C++ qui permette à terme aux élèves d'adapter les implémentations bas niveau existantes à leurs besoins spécifiques. A noter que les paradigmes de programmation abordés lors du cours sont quasi-exclusivement séquentiels, la programmation concurrente étant tout juste effleurée lors de la dernière séance et réservée pour d'autres cours.

 

Détail des séances (analyse de données / C++):

1. Introduction brève à l'analyse de données / C++ comme du C (1/2)

2. Recherche de plus proches voisins et extraction dans les bases de données / C++ comme du C (2/2)

3. k-means / structs et classes (1/2)

4. Clustering hiérarchique / structs et classes (2/2)

5. Estimation de densité / héritage

6. Classification et régression k-NN / généricité

7. Modèles linéaires pour la régression / STL

8. Modèles linéaires pour la classification / C++11

9. Extraction de features / -

10. Réseaux de neurones / multithreading

 

Références:

En analyse de données :

  • Hastie, Tibshirani, Friedman: The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer, 2017.
  • Bishop: Pattern Recognition and Machine Learning. Springer, 2006.

En C++ :

  • Weiss: C++ for Java Programmers. Prentice Hall, 2003.
  • Stroustrup. The C++ Programming Language (4th ed.). Addison-Wesley, 2013.

 

Prérequis : INF371 ou INF411

Recommandés : MAP433 et INF421




Modern data analysis relies on the use of high-level languages such as Python or R for data handling and processing. However, behind standard libraries like Scikit-Learn hide core implementations in low-level languages such as C or C++, for faster execution and optimized resources management. Hence the utility of this course, the goal of which is twofold: first, to get acquainted with some of the standard techniques in data analysis and machine learning; second, to acquire some expertise in C/C++ programming, so that students can then adapt existing low-level implementations to their needs. Note that the programming paradigms seen in this course are almost exclusively sequential, concurrent programming being addressed only marginally during the last session and being the subject of other courses.

 

Topics of the sessions (data analysis / C++):

1. Short introduction to data analysis / C++ as C (1/2)

2. Nearest neighbors search and retrieval in databases / C++ as C (2/2)

3. k-means / structs and classes (1/2)

4. Hierarchical clustering / structs and classes (2/2)

5. Density estimation / inheritance

6. k-NN classification and regression / genericity

7. Linear models for regression / STL

8. Linear models for classification / C++11

9. Feature extraction / -

10. Neural networks / multithreading

 

References:

On data analysis:

  • Hastie, Tibshirani, Friedman: The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd ed.). Springer, 2017.
  • Bishop: Pattern Recognition and Machine Learning. Springer, 2006.

On C++:

  • Weiss: C++ for Java Programmers. Prentice Hall, 2003.
  • Stroustrup. The C++ Programming Language (4th ed.). Addison-Wesley, 2013.

 

 

Prerequisites : INF371 or INF411

Recommended : MAP433 and INF421