Traitement automatique des termes composés : segmentation, traduction et variation

Le nombre de termes spécialisés croît constamment dans les documents, à un rythme difficile à suivre pour les organismes de normalisation de la terminologie. Les méthodes de construction des lexiques terminologiques bilingues à partir de corpus de textes proposent des solutions. Notre thèse s inscri...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Loginova Clouet Elizaveta (Auteur), Daille Béatrice (Directeur de thèse), Kübler Natalie (Président du jury de soutenance, Membre du jury), Hathout Nabil (Rapporteur de la thèse, Membre du jury)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Autre partenaire associé à la thèse), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Ecole doctorale associée à la thèse), Laboratoire d Informatique de Nantes Atlantique (UMR 6241) Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Traitement automatique des termes composés : segmentation, traduction et variation / Elizaveta Loginova Clouet; sous la direction de Béatrice Daille
Publié : [Lieu de publication inconnu] : [éditeur inconnu] , 2014
Description matérielle : 1 vol. (160 p.)
Condition d'utilisation et de reproduction : Publication autorisée par le jury
Note de thèse : Thèse de doctorat : Informatique, Traitement Automatique du Langage Naturel : Nantes : 2014
Sujets :
Documents associés : Reproduit comme: Traitement automatique des termes composés
Particularités de l'exemplaire : BU Sciences, Ex. 1 :
Titre temporairement indisponible à la communication

Description
Résumé : Le nombre de termes spécialisés croît constamment dans les documents, à un rythme difficile à suivre pour les organismes de normalisation de la terminologie. Les méthodes de construction des lexiques terminologiques bilingues à partir de corpus de textes proposent des solutions. Notre thèse s inscrit dans cette problématique : la construction de lexiques bilingues à partir de corpus comparables. Les termes composés (les termes contenant plusieurs radicaux, mais un seul mot graphique) constituent un défi pour les applications du traitement automatique des langues. Étant donné leur forme graphique, ils sont souvent traités comme des termes simples, ce qui empêche de capturer leur complexité sémantique. Notre participation à une évaluation d extraction automatique de termes a permis de vérifier notre hypothèse : les termes composés nécessitent un traitement particulier dans un contexte multilingue. Nous avons proposé une méthode de reconnaissance et de segmentation des termes composés, combinant des caractéristiques dépendantes et indépendantes de la langue. Elle permet d obtenir des résultats comparables à ceux des méthodes de l état de l art, tout en étant validée sur un échantillon de familles de langues varié (germanique, slave, romane) et adaptable au domaine de spécialité (vérifiée sur deux domaines : l énergie éolienne et le cancer du sein). Nous avons exploité les segmentations produites pour la traduction compositionnelle des termes et pour la détection des variantes syntagmatiques des termes composés dans les textes spécialisés. Ces deux expériences illustrent l utilité de la segmentation pour la construction des lexiques terminologiques bilingues.
The number of specialized terms continuously grows in the documents, at a pace which is difficult to follow for the terminology standardization organizations. The methods of bilingual term lexicon construction from the text corpora provide solutions. Our thesis falls into this topic: bilingual lexicon acquisition from comparable corpora. Compound terms (terms containing several roots, but a single graphical unit) are challenging for natural language processing applications. Given their graphical form, they are often handled in the same manner as single word terms, which prevents from apprehending their semantic complexity. Our involvement in an automatical terminology extraction evaluation allowed us to check our hypothesis: compound terms need a particular processing in a multilingual context. We proposed a method for compound terms recognition and splitting, which combines language-independent and language-specific features. It allowed us to obtain results comparable with those of state-of-the-art methods, while validating on a sample of languages from several families (germanic, slavic, romance languages), and adapting the method to specialized domains (tested on two domains: wind energy and breast cancer). We used the produced segmentations for compositional translation of compound terms, and for their multi-word variant recognition in the specialized texts. These two experiments illustrate that compound splitting is beneficial for the bilingual term lexicon acquisition task.
Variantes de titre : Processing of Compound Terms : Segmentation, Translation and Variation
Notes : Ecole(s) Doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (STIM) (Nantes)
Partenaire de recherche : Laboratoire d Informatique de Nantes Atlantique (UMR 6241) (LINA) (Nantes) (Laboratoire)
Autre(s) contribution(s) : Nathalie Kübler (Président du jury) ; Natalia Grabar (Membre(s) du jury) ; Nabil Hathout (Rapporteur(s))
Bibliographie : Bibliogr p.153-160.