Le Web regorge de sources de données que l'on souhaite manipuler à grande echelle. L'approche actuelle est de représenter ces données sous la forme d'un graphe de données ou de connaissance; par exemple les données ouvertes et connectées (open data), les réseaux sociaux, des encyclopedies en lignes. Cette approche est même présente dans les grandes industries du Web, Alphabet (dans Google) et Meta (Facebook).

L'avantage des graphes de connaissances est de pouvoir les interroger à l'aide de langages logiques mais aussi de pouvoir apprendre des propriétés structurelles sur ceux-ci.

Si les graphes de connaissances sont des outils très importants pour la gestion de données sur le Web, toutes les données sur le Web ne sont pas éditées dans un tel model. Il est alors nécessaire de fouiller et d'apprendre dans les textes et autres contenus moins structurés pour construire de nouveaux graphes.

Ce cours introduit les différentes grandes étapes qu'un ingénieur en data science a besoin d'opérer pour extraire des connaisssances de grand volumes de données.
Il vous familiarisera avec des outils concrets pour:

  • Manipuler et visualiser des graphes.
  • Classification des noeuds et des sous-graphes à l'aide de l'apprentisage automatique.
  • Raisonner dans des graphes de connaissances, utilisant les technologies du Web Sémantique.
  • Tisser des graphes de connexions entre des textes et des concepts, à l’aide de la sémantique.
  • Fouiller des données textuelles.
Les 6 premières séances seront destinées à la présentation des concepts et outils, puis vous réaliserez des projets en binôme.