Enchancing LDA for Ontology Learning

Cette thèse vise à tirer profit du modèle sémantique LDA pour améliorer la conceptualisation des termes en vue de l apprentissage d ontologie à partir de textes, où des termes similaires sont regroupés en fonction de concepts de base prédéfinis. Nous avons exploré le cadre classique du regroupement...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Xu Ziwei (Auteur), Guillet Fabrice (Directeur de thèse), Harzallah Mounira (Directeur de thèse), Berio Giuseppe (Président du jury de soutenance), Velcin Julien (Rapporteur de la thèse), Karray Mohamed Hedi (Rapporteur de la thèse), Ichise Ryutaro (Membre du jury)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), École doctorale Mathématiques et sciences et technologies de l'information et de la communication Rennes (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : anglais
Titre complet : Enchancing LDA for Ontology Learning / Ziwei Xu; sous la direction de Fabrice Guillet et de Mounira Harzallah
Publié : 2021
Accès en ligne : Accès Nantes Université
Note sur l'URL : Accès au texte intégral
Note de thèse : Thèse de doctorat : Informatique : Nantes : 2021
Sujets :
Description
Résumé : Cette thèse vise à tirer profit du modèle sémantique LDA pour améliorer la conceptualisation des termes en vue de l apprentissage d ontologie à partir de textes, où des termes similaires sont regroupés en fonction de concepts de base prédéfinis. Nous avons exploré le cadre classique du regroupement de termes et étudié l impact des techniques de représentation des termes. Nous avons proposé des stratégies de regroupement de termes (term clustering) basées sur LDA, où des connaissances préalables sont utilisées pour semisuperviser LDA. De plus, nous avons construit la structure taxonomique de l ontologie, en appliquant en interne les cadres de sous-catégorisation sur les phrases nominatives et en bénéficiant en externe des bases de connaissances. Notre stratégie de regroupement basée sur LDA a été plus performante que la majorité des travaux de regroupement dans le cadre classique. Notre approche optimale d intégration des connaissances préalables a dépassé les performances de LDA de base et de seeded LDA. Le regroupement basé sur LDA pourrait contribuer à améliorer la formation des concepts à partir de termes pour l apprentissage d ontologie.
This dissertation aims to enhance LDA s utilities of conceptualizing terms towards ontology learning, where similar terms are clustered to the predefined core concepts. We explored the classic workflow of term clustering and studied the clustering impacts of the terms representation techniques. Comparatively, we proposed the LDA based clustering strategy, where the prior knowledge embedding techniques are applied to semisupervise the LDA for the more satisfying clusters. In addition, we built up the taxonomic structure of the ontology, by internally applying the subcategorization frames over noun phrases and externally benefitting from the knowledge bases. The experiment results showed that our proposed LDA based clustering strategy outperformed the majority of the clustering works in the classic workflow. Our optimal prior knowledge embedding approach exceeded the performance of basic LDA and Seeded LDA but dropped behind the Z-label LDA. This dissertation suggests that the LDA based clustering strategy could contribute to the anticipating term conceptualizations for ontology learning.
Variantes de titre : Améliorer LDA pour L apprentissage d ontologie
Notes : Titre provenant de l'écran-titre
Ecole(s) Doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire)
Autre(s) contribution(s) : Giuseppe Berio (Président du jury) ; Ryutaro Ichise (Membre(s) du jury) ; Julien Velcin, Mohamed Hedi Karray (Rapporteur(s))
Configuration requise : Configuration requise : un logiciel capable de lire un fichier au format : PDF