Grammatical inference of probalistic context-free grammars /

L’inférence grammaticale consiste à apprendre, à partir de données provenant d’un langage, une grammaire susceptible d’expliquer ou de générer le langage en question. Ce travail, concerne les grammaires incontextuelles (ou context-free) probabilistes, plus puissantes que les grammaires régulières, o...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Scicluna, James (1987-....) (Auteur)
Collectivités auteurs : Université de Nantes (1962-2021) (Organisme de soutenance), Université de Nantes. Faculté des sciences et des techniques (Autre partenaire associé à la thèse), École doctorale Sciences et technologies de l'information et mathématiques (Nantes) (Organisme de soutenance), Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes) (Laboratoire associé à la thèse., Laboratoire associé à la thèse)
Autres auteurs : La Higuera, Colin de (19..-....) (Directeur de thèse, Opposant, Membre du jury), Janodet, Jean-Christophe (1972-....; auteur en informatique) (Opposant, Président du jury de soutenance., Membre du jury), Clark, Alexander (19..-....) (Opposant, Rapporteur de la thèse., Membre du jury), Habrard, Amaury (1978-....) (Opposant, Rapporteur de la thèse., Membre du jury)
Format : Thèse Livre
Langue :anglais
Publié : [S.l.] : [s.n.], 2014.
Sujets :

MARC

LEADER 00000cam a2200000 i 4500
001 in00000511045
005 20240506093318.0
008 151215s2014||||fr ||||frm 00| ||eng d
024 7 |a 2014NANT2071  |2 FRnnt 
035 |a (OCoLC)1247894105 
035 |a (PPN)190220597 
040 |a ABES  |b fre  |e AFNOR 
041 0 |a eng  |b fre  |b eng  |2 639-2 
084 |a 620.  |2 TEF 
100 1 |0 (IdRef)190169842  |1 http://www.idref.fr/190169842/id  |a Scicluna, James  |d (1987-....).  |4 aut.  |e Auteur 
242 1 0 |a Inférence grammaticale de grammaires incontextuelles probabilistes.  |y eng 
245 1 0 |a Grammatical inference of probalistic context-free grammars /  |c James Scicluna ; sous la direction de Colin de la Higuera. 
260 |a [S.l.] :  |b [s.n.],  |c 2014. 
300 |a 1 vol. (123 p.) :  |b ill. ;  |c 30 cm. 
336 |b txt  |2 rdacontent 
337 |b n  |2 rdamedia 
337 |b n  |2 isbdmedia 
500 |a Thèse rédigée en anglais. 
502 |a Thèse de doctorat : Informatique et applications : Nantes : 2014 
504 |a Bibliogr. p.107-117. 
520 |a L’inférence grammaticale consiste à apprendre, à partir de données provenant d’un langage, une grammaire susceptible d’expliquer ou de générer le langage en question. Ce travail, concerne les grammaires incontextuelles (ou context-free) probabilistes, plus puissantes que les grammaires régulières, objet de la plupart des travaux en inférence grammaticale. L’apprentissage est non supervisé : aucune information structurelle n’est connue. Le travail comprend un état de l’art concernant l’inférence grammaticale, les grammaires probabilistes et les classes de grammaires permettant un apprentissage distributionnel. Puis nous étudions différents problèmes de décision concernant des questions de (calculs de) distances entre distributions et nous montrons qu’en général il s’agit de problèmes indécidables. Dans un second temps nous donnons une description mathématique de la classe de grammaires qui vont nous intéresser. Le coeur de la thèse concerne le développement de l’algorithme COMINO, de l’analyse de ses propriétés et de l’étude empirique de ses capacités. L’algorithme se déroule en trois phases : durant la première, une relation d’équivalence sur les sous-mots est calculée. Durant la seconde, un solveur est utilisé pour sélectionner un nombre minimal de classes. Enfin, les classes deviennent les nonterminaux d’une grammaire dont les poids des règles sont estimés grâce à l’échantillon. Les résultats expérimentaux témoignent de la robustesse de l’approche mais montrent également les limites de l’approche sur des données réelles de langue naturelle. 
520 |a Probabilistic Context-Free Grammars (PCFGs) are formal statistical models which describe probability distributions on strings and on tree structures of the same strings. Grammatical Inference is a sub-field of machine learning where the task is to learn automata or grammars (such as PCFGs) from information about their languages. In this thesis, we are interested in Grammatical Inference of PCFGs from text. There are various applications for this problem, chief amongst which are Unsupervised Parsing and Language Modelling in Natural Language Processing and RNA secondary structure prediction in Bioinformatics. PCFG inference is however a difficult problem for a variety of reasons. In spite of its importance for various applications, only few positive results have up till now been obtained for this problem. Our main contribution in this thesis is a practical PCFG learning algorithm with some proven properties and based on a principled approach. We define a new subclass of PCFGs (very similar to the one defined in (Clark, 2010)) and use distributional learning and MDL-based techniques in order to learn this class of grammars. We obtain competitive results on experiments that evaluate unsupervised parsing and language modelling. A minor contribution in this thesis is a compendium of undecidability results for distances between PCFGs along with two positive results on PCFGs. Having such results can help in the process of finding learning algorithms for PCFGs. 
540 |a Publication autorisée par le jury 
550 |a Ecole(s) Doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (STIM) (Nantes) 
550 |a Autre(s) contribution(s) : Jean-Christophe Janodet (Président du jury) ; François Coste (Membre du jury) ; Alexander Clark, Amaury Habrard (Rapporteurs) 
562 |5 441092104:544341309  |a Titre temporairement indisponible à la communication 
650 7 |0 (IdRef)027940373  |1 http://www.idref.fr/027940373/id  |a Apprentissage automatique.  |2 ram 
653 |a Inférence grammaticale 
653 |a Grammaires probabilistes 
655 7 |0 (IdRef)027253139  |1 http://www.idref.fr/027253139/id  |a Thèses et écrits académiques.  |2 ram 
700 1 |0 (IdRef)053503503  |1 http://www.idref.fr/053503503/id  |a La Higuera, Colin de  |d (19..-....).  |4 ths.  |4 opn.  |e Directeur de thèse.  |e Membre du jury 
700 1 |0 (IdRef)113433166  |1 http://www.idref.fr/113433166/id  |a Janodet, Jean-Christophe  |d (1972-....;   |c auteur en informatique).  |4 956.  |4 opn.  |e Président du jury de soutenance.  |e Membre du jury 
700 1 |0 (IdRef)133159906  |1 http://www.idref.fr/133159906/id  |a Clark, Alexander  |d (19..-....).  |4 958.  |4 opn.  |e Rapporteur de la thèse.  |e Membre du jury 
700 1 |0 (IdRef)084103655  |1 http://www.idref.fr/084103655/id  |a Habrard, Amaury  |d (1978-....).  |4 958.  |4 opn.  |e Rapporteur de la thèse.  |e Membre du jury 
710 2 |0 (IdRef)026403447  |1 http://www.idref.fr/026403447/id  |a Université de Nantes (1962-2021).  |4 dgg.  |e Organisme de soutenance 
710 2 |0 (IdRef)033124884  |1 http://www.idref.fr/033124884/id  |a Université de Nantes.  |b Faculté des sciences et des techniques.  |4 985.  |e Autre partenaire associé à la thèse 
710 2 |0 (IdRef)134103211  |1 http://www.idref.fr/134103211/id  |a École doctorale Sciences et technologies de l'information et mathématiques (Nantes).  |4 dgg.  |e Organisme de soutenance 
710 2 |0 (IdRef)137062508  |1 http://www.idref.fr/137062508/id  |a Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes).  |4 981.  |4 981.  |e Laboratoire associé à la thèse.  |e Laboratoire associé à la thèse 
776 0 |t Grammatical inference of probalistic context-free grammars / James Scicluna  |d Lille : Atelier national de reproduction des thèses  |h Microfiches. (@Lille-thèses)  |w (ABES)249358921 
886 2 |2 unimarc  |a 181  |a i#  |b xxxe## 
930 |5 441092104:544341309  |b 441092104  |j g 
991 |5 441092104:544341309  |a Exemplaire modifié automatiquement le 18-07-2024 18:49 
999 f f |i 885d7b90-741c-5f66-a99e-5027f10461f0  |s 5355c2f6-d4e3-5163-b0b7-86228948a6eb  |t 0 
952 f f |p P0 Non empruntable  |a Nantes Université  |b Lombarderie  |c Bu Sciences  |d Magasin compactus - S'adresser à l'accueil  |t 0  |e 2014 NANT 2071  |h Locale  |i Indéterminé  |m 1162211961 
952 f f |p Prêt 28 ou 56 jours  |a Nantes Université  |b Lombarderie  |c Bu Sciences  |d Magasin compactus - S'adresser à l'accueil  |t 0  |e 2014 NANT 2071  |h Locale  |i Indéterminé  |m 1162211978 

Notice dans l'index de recherche

_version_ 1814874324026261505
author Scicluna, James (1987-....)
author2 La Higuera, Colin de (19..-....)
La Higuera, Colin de (19..-....)
La Higuera, Colin de (19..-....)
Janodet, Jean-Christophe (1972-....; auteur en informatique)
Janodet, Jean-Christophe (1972-....; auteur en informatique)
Janodet, Jean-Christophe (1972-....; auteur en informatique)
Clark, Alexander (19..-....)
Clark, Alexander (19..-....)
Clark, Alexander (19..-....)
Habrard, Amaury (1978-....)
Habrard, Amaury (1978-....)
Habrard, Amaury (1978-....)
author2_role ths
opn
Membre du jury
opn
Président du jury de soutenance.
Membre du jury
opn
Rapporteur de la thèse.
Membre du jury
opn
Rapporteur de la thèse.
Membre du jury
author2_variant h c d l hcd hcdl
h c d l hcd hcdl
h c d l hcd hcdl
j c j jcj
j c j jcj
j c j jcj
a c ac
a c ac
a c ac
a h ah
a h ah
a h ah
author_corporate Université de Nantes (1962-2021)
Université de Nantes. Faculté des sciences et des techniques
École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes)
Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes)
author_corporate_role Organisme de soutenance
Autre partenaire associé à la thèse
Organisme de soutenance
Laboratoire associé à la thèse.
Laboratoire associé à la thèse
author_facet Scicluna, James (1987-....)
La Higuera, Colin de (19..-....)
La Higuera, Colin de (19..-....)
La Higuera, Colin de (19..-....)
Janodet, Jean-Christophe (1972-....; auteur en informatique)
Janodet, Jean-Christophe (1972-....; auteur en informatique)
Janodet, Jean-Christophe (1972-....; auteur en informatique)
Clark, Alexander (19..-....)
Clark, Alexander (19..-....)
Clark, Alexander (19..-....)
Habrard, Amaury (1978-....)
Habrard, Amaury (1978-....)
Habrard, Amaury (1978-....)
Université de Nantes (1962-2021)
Université de Nantes. Faculté des sciences et des techniques
École doctorale Sciences et technologies de l'information et mathématiques (Nantes)
Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes)
Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes)
author_role aut
author_sort Scicluna, James (1987-....)
author_variant j s js
building Bu Sciences
campus_str_mv Lombarderie
collection Magasin compactus - S'adresser à l'accueil
ctrlnum (OCoLC)1247894105
(PPN)190220597
format Thesis
Book
fullrecord {"leader":"00000cam a2200000 i 4500","fields":[{"001":"in00000511045"},{"005":"20240506093318.0"},{"008":"151215s2014||||fr ||||frm 00| ||eng d"},{"024":{"subfields":[{"a":"2014NANT2071"},{"2":"FRnnt"}],"ind1":"7","ind2":" "}},{"035":{"subfields":[{"a":"(OCoLC)1247894105"}],"ind1":" ","ind2":" "}},{"035":{"subfields":[{"a":"(PPN)190220597"}],"ind1":" ","ind2":" "}},{"040":{"subfields":[{"a":"ABES"},{"b":"fre"},{"e":"AFNOR"}],"ind1":" ","ind2":" "}},{"041":{"subfields":[{"a":"eng"},{"b":"fre"},{"b":"eng"},{"2":"639-2"}],"ind1":"0","ind2":" "}},{"084":{"subfields":[{"a":"620."},{"2":"TEF"}],"ind1":" ","ind2":" "}},{"100":{"subfields":[{"0":"(IdRef)190169842"},{"1":"http://www.idref.fr/190169842/id"},{"a":"Scicluna, James"},{"d":"(1987-....)."},{"4":"aut."},{"e":"Auteur"}],"ind1":"1","ind2":" "}},{"242":{"subfields":[{"a":"Inférence grammaticale de grammaires incontextuelles probabilistes."},{"y":"eng"}],"ind1":"1","ind2":"0"}},{"245":{"subfields":[{"a":"Grammatical inference of probalistic context-free grammars /"},{"c":"James Scicluna ; sous la direction de Colin de la Higuera."}],"ind1":"1","ind2":"0"}},{"260":{"subfields":[{"a":"[S.l.] :"},{"b":"[s.n.],"},{"c":"2014."}],"ind1":" ","ind2":" "}},{"300":{"subfields":[{"a":"1 vol. (123 p.) :"},{"b":"ill. ;"},{"c":"30 cm."}],"ind1":" ","ind2":" "}},{"336":{"subfields":[{"b":"txt"},{"2":"rdacontent"}],"ind1":" ","ind2":" "}},{"337":{"subfields":[{"b":"n"},{"2":"rdamedia"}],"ind1":" ","ind2":" "}},{"337":{"subfields":[{"b":"n"},{"2":"isbdmedia"}],"ind1":" ","ind2":" "}},{"500":{"subfields":[{"a":"Thèse rédigée en anglais."}],"ind1":" ","ind2":" "}},{"502":{"subfields":[{"a":"Thèse de doctorat : Informatique et applications : Nantes : 2014"}],"ind1":" ","ind2":" "}},{"504":{"subfields":[{"a":"Bibliogr. p.107-117."}],"ind1":" ","ind2":" "}},{"520":{"subfields":[{"a":"L\u2019inférence grammaticale consiste à apprendre, à partir de données provenant d\u2019un langage, une grammaire susceptible d\u2019expliquer ou de générer le langage en question. Ce travail, concerne les grammaires incontextuelles (ou context-free) probabilistes, plus puissantes que les grammaires régulières, objet de la plupart des travaux en inférence grammaticale. L\u2019apprentissage est non supervisé : aucune information structurelle n\u2019est connue. Le travail comprend un état de l\u2019art concernant l\u2019inférence grammaticale, les grammaires probabilistes et les classes de grammaires permettant un apprentissage distributionnel. Puis nous étudions différents problèmes de décision concernant des questions de (calculs de) distances entre distributions et nous montrons qu\u2019en général il s\u2019agit de problèmes indécidables. Dans un second temps nous donnons une description mathématique de la classe de grammaires qui vont nous intéresser. Le coeur de la thèse concerne le développement de l\u2019algorithme COMINO, de l\u2019analyse de ses propriétés et de l\u2019étude empirique de ses capacités. L\u2019algorithme se déroule en trois phases : durant la première, une relation d\u2019équivalence sur les sous-mots est calculée. Durant la seconde, un solveur est utilisé pour sélectionner un nombre minimal de classes. Enfin, les classes deviennent les nonterminaux d\u2019une grammaire dont les poids des règles sont estimés grâce à l\u2019échantillon. Les résultats expérimentaux témoignent de la robustesse de l\u2019approche mais montrent également les limites de l\u2019approche sur des données réelles de langue naturelle."}],"ind1":" ","ind2":" "}},{"520":{"subfields":[{"a":"Probabilistic Context-Free Grammars (PCFGs) are formal statistical models which describe probability distributions on strings and on tree structures of the same strings. Grammatical Inference is a sub-field of machine learning where the task is to learn automata or grammars (such as PCFGs) from information about their languages. In this thesis, we are interested in Grammatical Inference of PCFGs from text. There are various applications for this problem, chief amongst which are Unsupervised Parsing and Language Modelling in Natural Language Processing and RNA secondary structure prediction in Bioinformatics. PCFG inference is however a difficult problem for a variety of reasons. In spite of its importance for various applications, only few positive results have up till now been obtained for this problem. Our main contribution in this thesis is a practical PCFG learning algorithm with some proven properties and based on a principled approach. We define a new subclass of PCFGs (very similar to the one defined in (Clark, 2010)) and use distributional learning and MDL-based techniques in order to learn this class of grammars. We obtain competitive results on experiments that evaluate unsupervised parsing and language modelling. A minor contribution in this thesis is a compendium of undecidability results for distances between PCFGs along with two positive results on PCFGs. Having such results can help in the process of finding learning algorithms for PCFGs."}],"ind1":" ","ind2":" "}},{"540":{"subfields":[{"a":"Publication autorisée par le jury"}],"ind1":" ","ind2":" "}},{"550":{"subfields":[{"a":"Ecole(s) Doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (STIM) (Nantes)"}],"ind1":" ","ind2":" "}},{"550":{"subfields":[{"a":"Autre(s) contribution(s) : Jean-Christophe Janodet (Président du jury) ; François Coste (Membre du jury) ; Alexander Clark, Amaury Habrard (Rapporteurs)"}],"ind1":" ","ind2":" "}},{"562":{"subfields":[{"5":"441092104:544341309"},{"a":"Titre temporairement indisponible à la communication"}],"ind1":" ","ind2":" "}},{"650":{"subfields":[{"0":"(IdRef)027940373"},{"1":"http://www.idref.fr/027940373/id"},{"a":"Apprentissage automatique."},{"2":"ram"}],"ind1":" ","ind2":"7"}},{"653":{"subfields":[{"a":"Inférence grammaticale"}],"ind1":" ","ind2":" "}},{"653":{"subfields":[{"a":"Grammaires probabilistes"}],"ind1":" ","ind2":" "}},{"655":{"subfields":[{"0":"(IdRef)027253139"},{"1":"http://www.idref.fr/027253139/id"},{"a":"Thèses et écrits académiques."},{"2":"ram"}],"ind1":" ","ind2":"7"}},{"700":{"subfields":[{"0":"(IdRef)053503503"},{"1":"http://www.idref.fr/053503503/id"},{"a":"La Higuera, Colin de"},{"d":"(19..-....)."},{"4":"ths."},{"4":"opn."},{"e":"Directeur de thèse."},{"e":"Membre du jury"}],"ind1":"1","ind2":" "}},{"700":{"subfields":[{"0":"(IdRef)113433166"},{"1":"http://www.idref.fr/113433166/id"},{"a":"Janodet, Jean-Christophe"},{"d":"(1972-....; "},{"c":"auteur en informatique)."},{"4":"956."},{"4":"opn."},{"e":"Président du jury de soutenance."},{"e":"Membre du jury"}],"ind1":"1","ind2":" "}},{"700":{"subfields":[{"0":"(IdRef)133159906"},{"1":"http://www.idref.fr/133159906/id"},{"a":"Clark, Alexander"},{"d":"(19..-....)."},{"4":"958."},{"4":"opn."},{"e":"Rapporteur de la thèse."},{"e":"Membre du jury"}],"ind1":"1","ind2":" "}},{"700":{"subfields":[{"0":"(IdRef)084103655"},{"1":"http://www.idref.fr/084103655/id"},{"a":"Habrard, Amaury"},{"d":"(1978-....)."},{"4":"958."},{"4":"opn."},{"e":"Rapporteur de la thèse."},{"e":"Membre du jury"}],"ind1":"1","ind2":" "}},{"710":{"subfields":[{"0":"(IdRef)026403447"},{"1":"http://www.idref.fr/026403447/id"},{"a":"Université de Nantes (1962-2021)."},{"4":"dgg."},{"e":"Organisme de soutenance"}],"ind1":"2","ind2":" "}},{"710":{"subfields":[{"0":"(IdRef)033124884"},{"1":"http://www.idref.fr/033124884/id"},{"a":"Université de Nantes."},{"b":"Faculté des sciences et des techniques."},{"4":"985."},{"e":"Autre partenaire associé à la thèse"}],"ind1":"2","ind2":" "}},{"710":{"subfields":[{"0":"(IdRef)134103211"},{"1":"http://www.idref.fr/134103211/id"},{"a":"École doctorale Sciences et technologies de l'information et mathématiques (Nantes)."},{"4":"dgg."},{"e":"Organisme de soutenance"}],"ind1":"2","ind2":" "}},{"710":{"subfields":[{"0":"(IdRef)137062508"},{"1":"http://www.idref.fr/137062508/id"},{"a":"Laboratoire d\u2019Informatique de Nantes Atlantique (UMR 6241) (Nantes)."},{"4":"981."},{"4":"981."},{"e":"Laboratoire associé à la thèse."},{"e":"Laboratoire associé à la thèse"}],"ind1":"2","ind2":" "}},{"776":{"subfields":[{"t":"Grammatical inference of probalistic context-free grammars / James Scicluna"},{"d":"Lille : Atelier national de reproduction des thèses"},{"h":"Microfiches. (@Lille-thèses)"},{"w":"(ABES)249358921"}],"ind1":"0","ind2":" "}},{"886":{"subfields":[{"2":"unimarc"},{"a":"181"},{"a":"i#"},{"b":"xxxe##"}],"ind1":"2","ind2":" "}},{"930":{"subfields":[{"5":"441092104:544341309"},{"b":"441092104"},{"j":"g"}],"ind1":" ","ind2":" "}},{"991":{"subfields":[{"5":"441092104:544341309"},{"a":"Exemplaire modifié automatiquement le 18-07-2024 18:49"}],"ind1":" ","ind2":" "}},{"999":{"subfields":[{"i":"885d7b90-741c-5f66-a99e-5027f10461f0"},{"s":"5355c2f6-d4e3-5163-b0b7-86228948a6eb"},{"t":"0"}],"ind1":"f","ind2":"f"}},{"952":{"subfields":[{"p":"P0 Non empruntable"},{"a":"Nantes Université"},{"b":"Lombarderie"},{"c":"Bu Sciences"},{"d":"Magasin compactus - S'adresser à l'accueil"},{"t":"0"},{"e":"2014 NANT 2071"},{"h":"Locale"},{"i":"Indéterminé"},{"m":"1162211961"}],"ind1":"f","ind2":"f"}},{"952":{"subfields":[{"p":"Prêt 28 ou 56 jours"},{"a":"Nantes Université"},{"b":"Lombarderie"},{"c":"Bu Sciences"},{"d":"Magasin compactus - S'adresser à l'accueil"},{"t":"0"},{"e":"2014 NANT 2071"},{"h":"Locale"},{"i":"Indéterminé"},{"m":"1162211978"}],"ind1":"f","ind2":"f"}}]}
genre (IdRef)027253139 http://www.idref.fr/027253139/id Thèses et écrits académiques. ram
genre_facet Thèses et écrits académiques.
id in00000511045
illustrated Illustrated
institution Nantes Université
language English
oclc_num 1247894105
online_boolean
physical 1 vol. (123 p.) : ill. ; 30 cm.
publishDate 2014
publisher [s.n.],
record_format marc
spelling (IdRef)190169842 http://www.idref.fr/190169842/id Scicluna, James (1987-....). aut. Auteur
Inférence grammaticale de grammaires incontextuelles probabilistes. eng
Grammatical inference of probalistic context-free grammars / James Scicluna ; sous la direction de Colin de la Higuera.
[S.l.] : [s.n.], 2014.
1 vol. (123 p.) : ill. ; 30 cm.
txt rdacontent
n rdamedia
n isbdmedia
Thèse rédigée en anglais.
Thèse de doctorat : Informatique et applications : Nantes : 2014
Bibliogr. p.107-117.
L’inférence grammaticale consiste à apprendre, à partir de données provenant d’un langage, une grammaire susceptible d’expliquer ou de générer le langage en question. Ce travail, concerne les grammaires incontextuelles (ou context-free) probabilistes, plus puissantes que les grammaires régulières, objet de la plupart des travaux en inférence grammaticale. L’apprentissage est non supervisé : aucune information structurelle n’est connue. Le travail comprend un état de l’art concernant l’inférence grammaticale, les grammaires probabilistes et les classes de grammaires permettant un apprentissage distributionnel. Puis nous étudions différents problèmes de décision concernant des questions de (calculs de) distances entre distributions et nous montrons qu’en général il s’agit de problèmes indécidables. Dans un second temps nous donnons une description mathématique de la classe de grammaires qui vont nous intéresser. Le coeur de la thèse concerne le développement de l’algorithme COMINO, de l’analyse de ses propriétés et de l’étude empirique de ses capacités. L’algorithme se déroule en trois phases : durant la première, une relation d’équivalence sur les sous-mots est calculée. Durant la seconde, un solveur est utilisé pour sélectionner un nombre minimal de classes. Enfin, les classes deviennent les nonterminaux d’une grammaire dont les poids des règles sont estimés grâce à l’échantillon. Les résultats expérimentaux témoignent de la robustesse de l’approche mais montrent également les limites de l’approche sur des données réelles de langue naturelle.
Probabilistic Context-Free Grammars (PCFGs) are formal statistical models which describe probability distributions on strings and on tree structures of the same strings. Grammatical Inference is a sub-field of machine learning where the task is to learn automata or grammars (such as PCFGs) from information about their languages. In this thesis, we are interested in Grammatical Inference of PCFGs from text. There are various applications for this problem, chief amongst which are Unsupervised Parsing and Language Modelling in Natural Language Processing and RNA secondary structure prediction in Bioinformatics. PCFG inference is however a difficult problem for a variety of reasons. In spite of its importance for various applications, only few positive results have up till now been obtained for this problem. Our main contribution in this thesis is a practical PCFG learning algorithm with some proven properties and based on a principled approach. We define a new subclass of PCFGs (very similar to the one defined in (Clark, 2010)) and use distributional learning and MDL-based techniques in order to learn this class of grammars. We obtain competitive results on experiments that evaluate unsupervised parsing and language modelling. A minor contribution in this thesis is a compendium of undecidability results for distances between PCFGs along with two positive results on PCFGs. Having such results can help in the process of finding learning algorithms for PCFGs.
Publication autorisée par le jury
Ecole(s) Doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (STIM) (Nantes)
Autre(s) contribution(s) : Jean-Christophe Janodet (Président du jury) ; François Coste (Membre du jury) ; Alexander Clark, Amaury Habrard (Rapporteurs)
441092104:544341309 Titre temporairement indisponible à la communication
(IdRef)027940373 http://www.idref.fr/027940373/id Apprentissage automatique. ram
Inférence grammaticale
Grammaires probabilistes
(IdRef)027253139 http://www.idref.fr/027253139/id Thèses et écrits académiques. ram
(IdRef)053503503 http://www.idref.fr/053503503/id La Higuera, Colin de (19..-....). ths. opn. Directeur de thèse. Membre du jury
(IdRef)113433166 http://www.idref.fr/113433166/id Janodet, Jean-Christophe (1972-....; auteur en informatique). 956. opn. Président du jury de soutenance. Membre du jury
(IdRef)133159906 http://www.idref.fr/133159906/id Clark, Alexander (19..-....). 958. opn. Rapporteur de la thèse. Membre du jury
(IdRef)084103655 http://www.idref.fr/084103655/id Habrard, Amaury (1978-....). 958. opn. Rapporteur de la thèse. Membre du jury
(IdRef)026403447 http://www.idref.fr/026403447/id Université de Nantes (1962-2021). dgg. Organisme de soutenance
(IdRef)033124884 http://www.idref.fr/033124884/id Université de Nantes. Faculté des sciences et des techniques. 985. Autre partenaire associé à la thèse
(IdRef)134103211 http://www.idref.fr/134103211/id École doctorale Sciences et technologies de l'information et mathématiques (Nantes). dgg. Organisme de soutenance
(IdRef)137062508 http://www.idref.fr/137062508/id Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes). 981. 981. Laboratoire associé à la thèse. Laboratoire associé à la thèse
Grammatical inference of probalistic context-free grammars / James Scicluna Lille : Atelier national de reproduction des thèses Microfiches. (@Lille-thèses) (ABES)249358921
unimarc 181 i# xxxe##
spellingShingle Scicluna, James (1987-....)
Grammatical inference of probalistic context-free grammars /
(IdRef)027940373 http://www.idref.fr/027940373/id Apprentissage automatique. ram
Inférence grammaticale
Grammaires probabilistes
title Grammatical inference of probalistic context-free grammars /
title_auth Grammatical inference of probalistic context-free grammars /
title_full Grammatical inference of probalistic context-free grammars / James Scicluna ; sous la direction de Colin de la Higuera.
title_fullStr Grammatical inference of probalistic context-free grammars / James Scicluna ; sous la direction de Colin de la Higuera.
title_full_unstemmed Grammatical inference of probalistic context-free grammars / James Scicluna ; sous la direction de Colin de la Higuera.
title_short Grammatical inference of probalistic context-free grammars /
title_sort grammatical inference of probalistic context free grammars
topic (IdRef)027940373 http://www.idref.fr/027940373/id Apprentissage automatique. ram
Inférence grammaticale
Grammaires probabilistes
topic_facet Apprentissage automatique.
work_keys_str_mv AT sciclunajames grammaticalinferenceofprobalisticcontextfreegrammars
AT lahigueracolinde grammaticalinferenceofprobalisticcontextfreegrammars
AT janodetjeanchristophe grammaticalinferenceofprobalisticcontextfreegrammars
AT clarkalexander grammaticalinferenceofprobalisticcontextfreegrammars
AT habrardamaury grammaticalinferenceofprobalisticcontextfreegrammars
AT universitedenantes19622021 grammaticalinferenceofprobalisticcontextfreegrammars
AT universitedenantesfacultedessciencesetdestechniques grammaticalinferenceofprobalisticcontextfreegrammars
AT ecoledoctoralesciencesettechnologiesdelinformationetmathematiquesnantes grammaticalinferenceofprobalisticcontextfreegrammars
AT laboratoiredinformatiquedenantesatlantiqueumr6241nantes grammaticalinferenceofprobalisticcontextfreegrammars