Thi Kim Thoa HO

Diplôme :
Doctorat
Mention :
Systèmes intégrés, environnement et biodiversité
Date :
vendredi 27 novembre 2020 - 14:00
Modélisation et analyse des réseaux complexes associées à des informations textuelles: les apports de la prétopologie, du topic modelling et de l’apprentissage automatique à l’étude de la dynamique des réseaux sociaux, la prédiction de liens et la diffusion des sujets.

 Soutenance en visioconférence

Thi Kim Thoa HO  soutiendra sa thèse de doctorat préparée sous la direction de M. Marc BUI

  • Jury : M. Marc BUI, M. Quang Vu BUI, Mme Mokdad LYNDA, Mme Emad NAHID, M. Soufian BEN AMOR, Mme Kabachi NADIA

Résumé

L’objet de cette thèse porte sur le concept de réseau complexe associé à de l’information textuelle. Nous nous sommes intéressés à l’analyse de ces réseaux avec une perspective d’application aux réseaux sociaux. Notre première contribution a consisté à réaliser un modèle d’analyse pour un réseau social dynamique en utilisant l’approche de modélisation à base d’agents (agent based modeling ou ABM), modèle auteur-sujet du text-mining (« author-topic modeling » ou ATM), et en ayant recours à le cadre mathématique de la prétopologie pour représenter la proximité des sujets. Notre modélisation se nomme Textual-ABM. Notre démarche a été d'utiliser le modèle auteur-sujet pour estimer l'intérêt de l'utilisateur sur la base du contenu textuel et d’employer la prétopologie pour modéliser plusieurs relations et représenter un ensemble de voisinages plus élaboré qu’une simple relation. Notre deuxième contribution concerne la diffusion des informations sur un réseau social « hétérogène ». Nous proposons d'étendre le modèle de diffusion épidémique independant cascade model (IC) et le modèle de diffusion en cascade prétopologique que nous nommons respectivement Textual-Homo-IC et Textual-PCM. Pour Textual-Homo-IC, la probabilité d'infection est basée sur l'homophilie c’est-à-dire l’affiliation à des agents ressemblants, celle-ci est obtenue à partir du contenu textuel en utilisant le modèle de sujet (topic modeling). Pour Textual-PCM, une fonction d’adhérence (pseudo-closure function) avec différentes variantes d’association pour les relations qui la constitue est proposée pour réaliser un ensemble de voisinages plus complexe. En outre, nous proposons d'utiliser l'apprentissage supervisé pour prédire la diffusion d'un sujet avec une combinaison de facteurs intrinsèques ou externes. Notre troisième contribution concerne la prédiction des relations entre co-auteurs avec l’ajout d’une nouvelle caractéristique topologique liés aux facteurs géographiques et fonctionnalités de contenu à l’aide du topic modelling. L’ensemble de ces travaux est accompagné d’une partie expérimentale et de la présentation des algorithmes développés.

Abstract

This thesis deals with the concept of complex network associated with textual information. We are interested in the analysis of these networks with a perspective of application to social networks. Our first contribution consisted in building an analysis model for a dynamic social network using the agent based modeling (ABM) approach, author-topic modeling (ATM), and using the mathematical framework of pretopology to represent the proximity of the subjects. Our modeling is called Textual- ABM. Our proposal has been to use author-topic modeling to estimate user interest based on text content and to use pretopology to model several relationships and to represent a set of neighborhoods that is more elaborate than a simple relationship. Our second contribution concerns the diffusion of information on a "heterogeneous" social network. We propose to extend the independent cascade epidemic diffusion model (IC) and the pretopological cascade diffusion model that we call Textual-Homo-IC and Textual-PCM respectively. For Textual-Homo-IC, the probability of infection is based on homophilia (resemblance of agents) which is obtained from the textual content using the topic modeling. For Textual-PCM, a pseudo-closure function with different strong levels is proposed to realize a more complex set of neighborhoods. In addition, we propose to use supervised learning to predict the diffusion of a topic with a combination of intrinsic or external factors. Our third contribution concerns the prediction of relationships between co-authors with the addition of a new topological feature related to geographical factors and content features using topic modelling. All this work was achieved by the design of specific algorithms and validated by experiments.