Summary of INF473G - Modal d'informatique - Fouille, Apprentissage et Raisonnement sur les Graphes du Web (2022-2023)

INF473G - Modal d'informatique - Fouille, Apprentissage et Raisonnement sur les Graphes du Web (2022-2023)

Le Web regorge de sources de données que l'on souhaite manipuler à grande echelle. L'approche actuelle est de représenter ces données sous la forme d'un graphe de données ou de connaissance; par exemple les données ouvertes et connectées (open data), les réseaux sociaux, des encyclopedies en lignes. Cette approche est même présente dans les grandes industries du Web, Alphabet (dans Google) et Meta (Facebook).

L'avantage des graphes de connaissances est de pouvoir les interroger à l'aide de langages logiques mais aussi de pouvoir apprendre des propriétés structurelles sur ceux-ci.

Si les graphes de connaissances sont des outils très importants pour la gestion de données sur le Web, toutes les données sur le Web ne sont pas éditées dans un tel model. Il est alors nécessaire de fouiller et d'apprendre dans les textes et autres contenus moins structurés pour construire de nouveaux graphes.

Ce cours introduit les différentes grandes étapes qu'un ingénieur en data science a besoin d'opérer pour extraire des connaisssances de grand volumes de données.
Il vous familiarisera avec des outils concrets pour:

Manipuler et visualiser des graphes.
Classification des noeuds et des sous-graphes à l'aide de l'apprentisage automatique.
Raisonner dans des graphes de connaissances, utilisant les technologies du Web Sémantique.
Tisser des graphes de connexions entre des textes et des concepts, à l’aide de la sémantique.
Fouiller des données textuelles.

Les 6 premières séances seront destinées à la présentation des concepts et outils, puis vous réaliserez des projets en binôme.

The Web is full of data sources that we want to manipulate on a large scale. The current approach is to represent this data in the form of a data or knowledge graph; for example open and connected data (open data), social networks, online encyclopedias. This approach is even present in the major web industries, Alphabet (in Google) and Meta (Facebook).

The advantage of knowledge graphs is to be able to query them using logical languages but also to be able to learn structural properties on them.

While knowledge graphs are very important tools for managing data on the web, not all data on the web is edited in such a model. It is then necessary to search and learn from text and other less structured content to build new graphs.

This course introduces the different main steps that a data science engineer needs to know to extract knowledge from large volumes of data.
It will familiarize you with concrete tools for:

Manipulating and visualizing graphs.
Classificating nodes and subgraphs using machine learning.
Reasoning in knowledge graphs, using Semantic Web technologies.
Finding connections between different graphs, or between texts and graphs, using semantics.
Mining and extracting information from textual data.

The first 6 sessions will be intended for the presentation of concepts and tools, then you will carry out projects in pairs.

Teaching coordinator: Balalau Oana
Teaching coordinator: Bourhis Pierre