Modélisation pangénomique du déséquilibre de liaison à l'aide de réseaux bayésiens hiérarchiques latents et applications

Les récentes technologies génomiques à haut-débit ont ouvert la voie aux études d'association visant la caractérisation systématique à l'échelle du génome des facteurs génétiques impliqués dans l'apparition des maladies génétiques complexes, telles que l'asthme et le diabète. Dan...

Description complète

Détails bibliographiques
Auteurs principaux : Mourad Raphaël (Auteur), Leray Philippe (Directeur de thèse), Sinoquet Christine (Membre du jury), Schott Jean-Jacques (Membre du jury), D'Alché-Buc Florence (Président du jury de soutenance, Membre du jury), Balding D. J. (Membre du jury), Wehenkel Louis A. (Rapporteur de la thèse, Membre du jury), Rouveirol Céline (Rapporteur de la thèse, Membre du jury)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Organisme de soutenance), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Ecole doctorale associée à la thèse), École polytechnique de l'Université de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Modélisation pangénomique du déséquilibre de liaison à l'aide de réseaux bayésiens hiérarchiques latents et applications / Raphaël Mourad; sous la direction de Philippe Leray ; co-encadrant Christine Sinoquet et Jean-Jacques Schott
Publié : 2011
Description matérielle : 1 vol. (143 p.)
Condition d'utilisation et de reproduction : Publication autorisée par le jury
Note de thèse : Thèse de doctorat : Informatique et applications : Nantes : 2011
Sujets :
Documents associés : Reproduit comme: Modélisation pangénomique du déséquilibre de liaison à l'aide de réseaux bayésiens hiérarchiques latents et applications
Particularités de l'exemplaire : BU Sciences, Ex. 1 :
Titre temporairement indisponible à la communication

Description
Résumé : Les récentes technologies génomiques à haut-débit ont ouvert la voie aux études d'association visant la caractérisation systématique à l'échelle du génome des facteurs génétiques impliqués dans l'apparition des maladies génétiques complexes, telles que l'asthme et le diabète. Dans ces études, le déséquilibre de liaison (linkage disequilibrium, LD) reflète l'existence de dépendances complexes au sein des données génétiques et joue un rôle central, puisqu'il permet une localisation précise des facteurs génétiques. Néanmoins, la haute complexité du LD, ainsi que la dimension élevée des données génétiques, constituent autant de difficultés à prendre en compte. Les travaux de recherche réalisés au cours de cette thèse se sont placés dans cette perspective. La contribution des travaux de recherche présentés est double, puisqu'elle est à la fois théorique et appliquée. Sur le plan théorique, nous avons proposé une nouvelle approche de modélisation du LD. Elle est basée sur le développement d'un modèle issu du domaine de l'intelligence artificielle et de l'apprentissage automatique, la forêt de modèles hiérarchiques à classes latentes (FMHCL). Les nouveautés les plus significatives introduites sont la possibilité de prendre en compte la nature floue du LD et de hiérarchiser les différents degrés de LD. Un nouvel algorithme d'apprentissage supportant le passage à l'échelle, nommé CFHLC, a été développé et décliné en deux versions : la première nécessitant le découpage du génome en fenêtres contiguës pour résoudre le problème de passage à l'échelle, et la seconde (CFHLC+ ), plus récente et évoluée, résolvant le problème au moyen d'une fenêtre glissante sur le chromosome. A l'aide d'un jeu de données réelles, la comparaison de la méthode CFHLC avec des méthodes concurrentes a montré qu'elle offre une modélisation plus fine du LD. En outre, l'apprentissage sur des données présentant des patrons de LD variés a démontré la capacité de la FMHCL a reproduire fidèlement la structure du LD. Enfin, l'analyse empirique de la complexité de l'apprentissage a montré la linéarité en temps lorsque le nombre de variables à traiter augmente. Sur le plan appliqué, nous avons exploré deux pistes de recherche : la recherche de causalités et la visualisation synthétique et intuitive du LD. D'une part, une étude systématique de la capacité des FMHCL à la recherche de causalités est illustrée dans le contexte de la génétique d'association. Ce travail a établi les bases du développement de nouvelles méthodes de recherche dédiées à la découverte de facteurs génétiques causaux pour les études d'association à l'échelle du génome. D'autre part, une méthode a été développée pour la visualisation synthétique et intuitive du LD adaptée aux trois principales situations que peut rencontrer le généticien: la visualisation du LD de courte distance, de longue distance et dans un contexte pangénomique. Cette nouvelle méthode apporte des atouts majeurs qui sont les suivants : (i) le LD par paires ( deux variables) et le LD multilocus ( deux variables ou plus) sont simultanément visualisés, (ii) le LD de courte distance et le LD de longue distance sont facilement distingués, et (iii) l'information est synthétisée de manière hiérarchique.
Variantes de titre : Genome-wide linkage disequilibrium modeling using hierarchical latent Bayesian networksand applications
Notes : Ecole(s) Doctorale(s) : École doctorale sciences et technologies de l'information et de mathématiques (STIM) (Nantes)
Partenaire de recherche : Ecole Polytechnique de l Université de Nantes
Autre(s) contribution(s) : Florence D'Alché-Buc (Président du jury) ; David Balding (Examinateurs) ; Louis Wehenkel, Céline Rouveirol (Rapporteurs)
Bibliographie : Bibliogr. p.135-143