Avis de soutenance - doctorat - Alba NIETO HEREDIA

Informations pratiques
Ecole doctorale 472
54 Bd Raspail. 75006, Paris (France)
Ajouter à mon calendrier
Soutenue par Alba NIETO HEREDIA

Inférence démographique dans les populations structurées : intégration de la coalescence markovienne séquentielle et de l'apprentissage profond

Cette thèse de doctorat, intitulée "Inférence Démographique dans les Populations Structurées : Couplage de la Coalescence Markoviène Séquentielle et de l'Apprentissage Profond," se concentre sur l'amélioration de la précision de la reconstruction de l'histoire des populations à l'aide de séquences de génomes entiers en présence de structure géographique. Les méthodes dominantes actuelles comme PSMC et SMC++, qui reposent sur le cadre de la Coalescence Markoviène Séquentielle (SMC), supposent que les populations sont panmictiques (accouplement aléatoire), une simplification critique qui conduit souvent à des résultats biaisés. Le Chapitre 1 étudie quantitativement cette lacune algorithmique. Il montre que lorsque les méthodes SMC sont appliquées à des populations structurées, les trajectoires démographiques résultantes, représentées par le Taux de Coalescence Instantané Inverse (IICR), sont systématiquement déformées. Plus précisément, le modèle panmictique infère constamment une expansion récente et fallacieuse de la population, un résultat directement lié au niveau de différenciation génétique (FST) dans le modèle structuré. Pour relever ce défi, le Chapitre 2 présente popCORN, une approche d'apprentissage profond (DL) nouvelle et évolutive. popCORN utilise un réseau neuronal profond pour analyser la matrice de transition complète des temps de coalescence par paires (T2​), qui encapsule l'information ancestrale locale le long du génome. En appliquant un Réseau Neuronal Convolutif (CNN) à cette matrice, la méthode se révèle très efficace, atteignant une précision parfaite pour distinguer les populations panmictiques des populations structurées. Ces travaux établissent la matrice de transition comme une caractéristique puissante pour la détection de structure et démontrent le potentiel du DL pour estimer avec précision des paramètres comme le nombre de démies et le taux de migration à partir d'un seul génome diploïde.

Demographic Inference in Structured Populations: Coupling Sequential Markovian Coalescence and Deep Learning

This PhD thesis, "Demographic Inference in Structured Populations: Coupling Sequential Markovian Coalescence and Deep Learning," focuses on improving the accuracy of reconstructing population history using whole-genome sequences in the presence of geographic structure. Current dominant methods like PSMC and SMC++, which rely on the Sequential Markovian Coalescent (SMC) framework, assume populations are panmictic (randomly mating), a critical simplification that often leads to biased results. Chapter 1 quantitatively investigates this algorithmic flaw. It shows that when SMC methods are applied to structured populations, the resulting demographic trajectories, represented by the Inverse Instantaneous Coalescence Rate (IICR), are systematically distorted. Specifically, the panmictic model consistently infers a spurious, recent population expansion, a finding directly linked to the level of genetic differentiation ($F_{ST}$) in the structured model. To address this challenge, Chapter 2 presents popCORN, a novel and scalable deep learning (DL) approach. popCORN uses a deep neural network to analyze the full transition matrix of pairwise coalescent times ($T_2$), which encapsulates local ancestral information along the genome. By applying a Convolutional Neural Network (CNN) to this matrix, the method proves highly successful, achieving perfect accuracy in distinguishing between panmictic and structured populations. This work establishes the transition matrix as a powerful feature for structure detection and demonstrates the potential of DL to accurately estimate parameters like the number of demes and migration rate from a single diploid genome.
Directeur de thèse :
Stefano MONA
Unité de recherche :
Institut de Systématique, Évolution, Biodiversité
Membres du jury :
  • Directeur de thèse : Stefano MONA , Directeur de recherche (EPHE, MNHN, ISYEB)
  • Rapporteur : Lounès CHIKHI , Directeur de recherche (CNRS, CRBE)
  • Co-encadrant de thèse : Oscar LAO , Directeur de recherche (IBE-CSIC)
  • Rapporteur : Amandine VÉBER , Directeur de recherche (CNRS, Université de Paris)
  • Examinateur : Flora JAY , Chargé de recherche (Université Paris-Saclay, CNRS, INRIA, Laboratoire Interdisciplinaire des Sciences du Numérique)
  • Examinateur : Maud TENAILLON , Directeur de recherche (Université Paris-Saclay, INRAE, CNRS, AgroParisTech)
Diplôme :
Doctorat Systèmes intégrés, environnement et biodiversité
Spécialité de soutenance :
Biodiversité, génétique et évolution