Grammatical inference of probalistic context-free grammars /
L’inférence grammaticale consiste à apprendre, à partir de données provenant d’un langage, une grammaire susceptible d’expliquer ou de générer le langage en question. Ce travail, concerne les grammaires incontextuelles (ou context-free) probabilistes, plus puissantes que les grammaires régulières, o...
Enregistré dans:
Auteur principal : | |
---|---|
Collectivités auteurs : | , , , |
Autres auteurs : | , , , |
Format : | Thèse Livre |
Langue : | anglais |
Publié : |
[S.l.] :
[s.n.],
2014.
|
Sujets : |
MARC
LEADER | 00000cam a2200000 i 4500 | ||
---|---|---|---|
001 | in00000511045 | ||
005 | 20240506093318.0 | ||
008 | 151215s2014||||fr ||||frm 00| ||eng d | ||
024 | 7 | |a 2014NANT2071 |2 FRnnt | |
035 | |a (OCoLC)1247894105 | ||
035 | |a (PPN)190220597 | ||
040 | |a ABES |b fre |e AFNOR | ||
041 | 0 | |a eng |b fre |b eng |2 639-2 | |
084 | |a 620. |2 TEF | ||
100 | 1 | |0 (IdRef)190169842 |1 http://www.idref.fr/190169842/id |a Scicluna, James |d (1987-....). |4 aut. |e Auteur | |
242 | 1 | 0 | |a Inférence grammaticale de grammaires incontextuelles probabilistes. |y eng |
245 | 1 | 0 | |a Grammatical inference of probalistic context-free grammars / |c James Scicluna ; sous la direction de Colin de la Higuera. |
260 | |a [S.l.] : |b [s.n.], |c 2014. | ||
300 | |a 1 vol. (123 p.) : |b ill. ; |c 30 cm. | ||
336 | |b txt |2 rdacontent | ||
337 | |b n |2 rdamedia | ||
337 | |b n |2 isbdmedia | ||
500 | |a Thèse rédigée en anglais. | ||
502 | |a Thèse de doctorat : Informatique et applications : Nantes : 2014 | ||
504 | |a Bibliogr. p.107-117. | ||
520 | |a L’inférence grammaticale consiste à apprendre, à partir de données provenant d’un langage, une grammaire susceptible d’expliquer ou de générer le langage en question. Ce travail, concerne les grammaires incontextuelles (ou context-free) probabilistes, plus puissantes que les grammaires régulières, objet de la plupart des travaux en inférence grammaticale. L’apprentissage est non supervisé : aucune information structurelle n’est connue. Le travail comprend un état de l’art concernant l’inférence grammaticale, les grammaires probabilistes et les classes de grammaires permettant un apprentissage distributionnel. Puis nous étudions différents problèmes de décision concernant des questions de (calculs de) distances entre distributions et nous montrons qu’en général il s’agit de problèmes indécidables. Dans un second temps nous donnons une description mathématique de la classe de grammaires qui vont nous intéresser. Le coeur de la thèse concerne le développement de l’algorithme COMINO, de l’analyse de ses propriétés et de l’étude empirique de ses capacités. L’algorithme se déroule en trois phases : durant la première, une relation d’équivalence sur les sous-mots est calculée. Durant la seconde, un solveur est utilisé pour sélectionner un nombre minimal de classes. Enfin, les classes deviennent les nonterminaux d’une grammaire dont les poids des règles sont estimés grâce à l’échantillon. Les résultats expérimentaux témoignent de la robustesse de l’approche mais montrent également les limites de l’approche sur des données réelles de langue naturelle. | ||
520 | |a Probabilistic Context-Free Grammars (PCFGs) are formal statistical models which describe probability distributions on strings and on tree structures of the same strings. Grammatical Inference is a sub-field of machine learning where the task is to learn automata or grammars (such as PCFGs) from information about their languages. In this thesis, we are interested in Grammatical Inference of PCFGs from text. There are various applications for this problem, chief amongst which are Unsupervised Parsing and Language Modelling in Natural Language Processing and RNA secondary structure prediction in Bioinformatics. PCFG inference is however a difficult problem for a variety of reasons. In spite of its importance for various applications, only few positive results have up till now been obtained for this problem. Our main contribution in this thesis is a practical PCFG learning algorithm with some proven properties and based on a principled approach. We define a new subclass of PCFGs (very similar to the one defined in (Clark, 2010)) and use distributional learning and MDL-based techniques in order to learn this class of grammars. We obtain competitive results on experiments that evaluate unsupervised parsing and language modelling. A minor contribution in this thesis is a compendium of undecidability results for distances between PCFGs along with two positive results on PCFGs. Having such results can help in the process of finding learning algorithms for PCFGs. | ||
540 | |a Publication autorisée par le jury | ||
550 | |a Ecole(s) Doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (STIM) (Nantes) | ||
550 | |a Autre(s) contribution(s) : Jean-Christophe Janodet (Président du jury) ; François Coste (Membre du jury) ; Alexander Clark, Amaury Habrard (Rapporteurs) | ||
562 | |5 441092104:544341309 |a Titre temporairement indisponible à la communication | ||
650 | 7 | |0 (IdRef)027940373 |1 http://www.idref.fr/027940373/id |a Apprentissage automatique. |2 ram | |
653 | |a Inférence grammaticale | ||
653 | |a Grammaires probabilistes | ||
655 | 7 | |0 (IdRef)027253139 |1 http://www.idref.fr/027253139/id |a Thèses et écrits académiques. |2 ram | |
700 | 1 | |0 (IdRef)053503503 |1 http://www.idref.fr/053503503/id |a La Higuera, Colin de |d (19..-....). |4 ths. |4 opn. |e Directeur de thèse. |e Membre du jury | |
700 | 1 | |0 (IdRef)113433166 |1 http://www.idref.fr/113433166/id |a Janodet, Jean-Christophe |d (1972-....; |c auteur en informatique). |4 956. |4 opn. |e Président du jury de soutenance. |e Membre du jury | |
700 | 1 | |0 (IdRef)133159906 |1 http://www.idref.fr/133159906/id |a Clark, Alexander |d (19..-....). |4 958. |4 opn. |e Rapporteur de la thèse. |e Membre du jury | |
700 | 1 | |0 (IdRef)084103655 |1 http://www.idref.fr/084103655/id |a Habrard, Amaury |d (1978-....). |4 958. |4 opn. |e Rapporteur de la thèse. |e Membre du jury | |
710 | 2 | |0 (IdRef)026403447 |1 http://www.idref.fr/026403447/id |a Université de Nantes (1962-2021). |4 dgg. |e Organisme de soutenance | |
710 | 2 | |0 (IdRef)033124884 |1 http://www.idref.fr/033124884/id |a Université de Nantes. |b Faculté des sciences et des techniques. |4 985. |e Autre partenaire associé à la thèse | |
710 | 2 | |0 (IdRef)134103211 |1 http://www.idref.fr/134103211/id |a École doctorale Sciences et technologies de l'information et mathématiques (Nantes). |4 dgg. |e Organisme de soutenance | |
710 | 2 | |0 (IdRef)137062508 |1 http://www.idref.fr/137062508/id |a Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes). |4 981. |4 981. |e Laboratoire associé à la thèse. |e Laboratoire associé à la thèse | |
776 | 0 | |t Grammatical inference of probalistic context-free grammars / James Scicluna |d Lille : Atelier national de reproduction des thèses |h Microfiches. (@Lille-thèses) |w (ABES)249358921 | |
886 | 2 | |2 unimarc |a 181 |a i# |b xxxe## | |
930 | |5 441092104:544341309 |b 441092104 |j g | ||
991 | |5 441092104:544341309 |a Exemplaire modifié automatiquement le 18-07-2024 18:49 | ||
999 | f | f | |i 885d7b90-741c-5f66-a99e-5027f10461f0 |s 5355c2f6-d4e3-5163-b0b7-86228948a6eb |t 0 |
952 | f | f | |p P0 Non empruntable |a Nantes Université |b Lombarderie |c Bu Sciences |d Magasin compactus - S'adresser à l'accueil |t 0 |e 2014 NANT 2071 |h Locale |i Indéterminé |m 1162211961 |
952 | f | f | |p Prêt 28 ou 56 jours |a Nantes Université |b Lombarderie |c Bu Sciences |d Magasin compactus - S'adresser à l'accueil |t 0 |e 2014 NANT 2071 |h Locale |i Indéterminé |m 1162211978 |
Notice dans l'index de recherche
_version_ | 1814874324026261505 |
---|---|
author | Scicluna, James (1987-....) |
author2 | La Higuera, Colin de (19..-....) La Higuera, Colin de (19..-....) La Higuera, Colin de (19..-....) Janodet, Jean-Christophe (1972-....; auteur en informatique) Janodet, Jean-Christophe (1972-....; auteur en informatique) Janodet, Jean-Christophe (1972-....; auteur en informatique) Clark, Alexander (19..-....) Clark, Alexander (19..-....) Clark, Alexander (19..-....) Habrard, Amaury (1978-....) Habrard, Amaury (1978-....) Habrard, Amaury (1978-....) |
author2_role | ths opn Membre du jury opn Président du jury de soutenance. Membre du jury opn Rapporteur de la thèse. Membre du jury opn Rapporteur de la thèse. Membre du jury |
author2_variant | h c d l hcd hcdl h c d l hcd hcdl h c d l hcd hcdl j c j jcj j c j jcj j c j jcj a c ac a c ac a c ac a h ah a h ah a h ah |
author_corporate | Université de Nantes (1962-2021) Université de Nantes. Faculté des sciences et des techniques École doctorale Sciences et technologies de l'information et mathématiques (Nantes) Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes) Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes) |
author_corporate_role | Organisme de soutenance Autre partenaire associé à la thèse Organisme de soutenance Laboratoire associé à la thèse. Laboratoire associé à la thèse |
author_facet | Scicluna, James (1987-....) La Higuera, Colin de (19..-....) La Higuera, Colin de (19..-....) La Higuera, Colin de (19..-....) Janodet, Jean-Christophe (1972-....; auteur en informatique) Janodet, Jean-Christophe (1972-....; auteur en informatique) Janodet, Jean-Christophe (1972-....; auteur en informatique) Clark, Alexander (19..-....) Clark, Alexander (19..-....) Clark, Alexander (19..-....) Habrard, Amaury (1978-....) Habrard, Amaury (1978-....) Habrard, Amaury (1978-....) Université de Nantes (1962-2021) Université de Nantes. Faculté des sciences et des techniques École doctorale Sciences et technologies de l'information et mathématiques (Nantes) Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes) Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes) |
author_role | aut |
author_sort | Scicluna, James (1987-....) |
author_variant | j s js |
building | Bu Sciences |
campus_str_mv | Lombarderie |
collection | Magasin compactus - S'adresser à l'accueil |
ctrlnum | (OCoLC)1247894105 (PPN)190220597 |
format | Thesis Book |
fullrecord | {"leader":"00000cam a2200000 i 4500","fields":[{"001":"in00000511045"},{"005":"20240506093318.0"},{"008":"151215s2014||||fr ||||frm 00| ||eng d"},{"024":{"subfields":[{"a":"2014NANT2071"},{"2":"FRnnt"}],"ind1":"7","ind2":" "}},{"035":{"subfields":[{"a":"(OCoLC)1247894105"}],"ind1":" ","ind2":" "}},{"035":{"subfields":[{"a":"(PPN)190220597"}],"ind1":" ","ind2":" "}},{"040":{"subfields":[{"a":"ABES"},{"b":"fre"},{"e":"AFNOR"}],"ind1":" ","ind2":" "}},{"041":{"subfields":[{"a":"eng"},{"b":"fre"},{"b":"eng"},{"2":"639-2"}],"ind1":"0","ind2":" "}},{"084":{"subfields":[{"a":"620."},{"2":"TEF"}],"ind1":" ","ind2":" "}},{"100":{"subfields":[{"0":"(IdRef)190169842"},{"1":"http://www.idref.fr/190169842/id"},{"a":"Scicluna, James"},{"d":"(1987-....)."},{"4":"aut."},{"e":"Auteur"}],"ind1":"1","ind2":" "}},{"242":{"subfields":[{"a":"Inférence grammaticale de grammaires incontextuelles probabilistes."},{"y":"eng"}],"ind1":"1","ind2":"0"}},{"245":{"subfields":[{"a":"Grammatical inference of probalistic context-free grammars /"},{"c":"James Scicluna ; sous la direction de Colin de la Higuera."}],"ind1":"1","ind2":"0"}},{"260":{"subfields":[{"a":"[S.l.] :"},{"b":"[s.n.],"},{"c":"2014."}],"ind1":" ","ind2":" "}},{"300":{"subfields":[{"a":"1 vol. (123 p.) :"},{"b":"ill. ;"},{"c":"30 cm."}],"ind1":" ","ind2":" "}},{"336":{"subfields":[{"b":"txt"},{"2":"rdacontent"}],"ind1":" ","ind2":" "}},{"337":{"subfields":[{"b":"n"},{"2":"rdamedia"}],"ind1":" ","ind2":" "}},{"337":{"subfields":[{"b":"n"},{"2":"isbdmedia"}],"ind1":" ","ind2":" "}},{"500":{"subfields":[{"a":"Thèse rédigée en anglais."}],"ind1":" ","ind2":" "}},{"502":{"subfields":[{"a":"Thèse de doctorat : Informatique et applications : Nantes : 2014"}],"ind1":" ","ind2":" "}},{"504":{"subfields":[{"a":"Bibliogr. p.107-117."}],"ind1":" ","ind2":" "}},{"520":{"subfields":[{"a":"L\u2019inférence grammaticale consiste à apprendre, à partir de données provenant d\u2019un langage, une grammaire susceptible d\u2019expliquer ou de générer le langage en question. Ce travail, concerne les grammaires incontextuelles (ou context-free) probabilistes, plus puissantes que les grammaires régulières, objet de la plupart des travaux en inférence grammaticale. L\u2019apprentissage est non supervisé : aucune information structurelle n\u2019est connue. Le travail comprend un état de l\u2019art concernant l\u2019inférence grammaticale, les grammaires probabilistes et les classes de grammaires permettant un apprentissage distributionnel. Puis nous étudions différents problèmes de décision concernant des questions de (calculs de) distances entre distributions et nous montrons qu\u2019en général il s\u2019agit de problèmes indécidables. Dans un second temps nous donnons une description mathématique de la classe de grammaires qui vont nous intéresser. Le coeur de la thèse concerne le développement de l\u2019algorithme COMINO, de l\u2019analyse de ses propriétés et de l\u2019étude empirique de ses capacités. L\u2019algorithme se déroule en trois phases : durant la première, une relation d\u2019équivalence sur les sous-mots est calculée. Durant la seconde, un solveur est utilisé pour sélectionner un nombre minimal de classes. Enfin, les classes deviennent les nonterminaux d\u2019une grammaire dont les poids des règles sont estimés grâce à l\u2019échantillon. Les résultats expérimentaux témoignent de la robustesse de l\u2019approche mais montrent également les limites de l\u2019approche sur des données réelles de langue naturelle."}],"ind1":" ","ind2":" "}},{"520":{"subfields":[{"a":"Probabilistic Context-Free Grammars (PCFGs) are formal statistical models which describe probability distributions on strings and on tree structures of the same strings. Grammatical Inference is a sub-field of machine learning where the task is to learn automata or grammars (such as PCFGs) from information about their languages. In this thesis, we are interested in Grammatical Inference of PCFGs from text. There are various applications for this problem, chief amongst which are Unsupervised Parsing and Language Modelling in Natural Language Processing and RNA secondary structure prediction in Bioinformatics. PCFG inference is however a difficult problem for a variety of reasons. In spite of its importance for various applications, only few positive results have up till now been obtained for this problem. Our main contribution in this thesis is a practical PCFG learning algorithm with some proven properties and based on a principled approach. We define a new subclass of PCFGs (very similar to the one defined in (Clark, 2010)) and use distributional learning and MDL-based techniques in order to learn this class of grammars. We obtain competitive results on experiments that evaluate unsupervised parsing and language modelling. A minor contribution in this thesis is a compendium of undecidability results for distances between PCFGs along with two positive results on PCFGs. Having such results can help in the process of finding learning algorithms for PCFGs."}],"ind1":" ","ind2":" "}},{"540":{"subfields":[{"a":"Publication autorisée par le jury"}],"ind1":" ","ind2":" "}},{"550":{"subfields":[{"a":"Ecole(s) Doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (STIM) (Nantes)"}],"ind1":" ","ind2":" "}},{"550":{"subfields":[{"a":"Autre(s) contribution(s) : Jean-Christophe Janodet (Président du jury) ; François Coste (Membre du jury) ; Alexander Clark, Amaury Habrard (Rapporteurs)"}],"ind1":" ","ind2":" "}},{"562":{"subfields":[{"5":"441092104:544341309"},{"a":"Titre temporairement indisponible à la communication"}],"ind1":" ","ind2":" "}},{"650":{"subfields":[{"0":"(IdRef)027940373"},{"1":"http://www.idref.fr/027940373/id"},{"a":"Apprentissage automatique."},{"2":"ram"}],"ind1":" ","ind2":"7"}},{"653":{"subfields":[{"a":"Inférence grammaticale"}],"ind1":" ","ind2":" "}},{"653":{"subfields":[{"a":"Grammaires probabilistes"}],"ind1":" ","ind2":" "}},{"655":{"subfields":[{"0":"(IdRef)027253139"},{"1":"http://www.idref.fr/027253139/id"},{"a":"Thèses et écrits académiques."},{"2":"ram"}],"ind1":" ","ind2":"7"}},{"700":{"subfields":[{"0":"(IdRef)053503503"},{"1":"http://www.idref.fr/053503503/id"},{"a":"La Higuera, Colin de"},{"d":"(19..-....)."},{"4":"ths."},{"4":"opn."},{"e":"Directeur de thèse."},{"e":"Membre du jury"}],"ind1":"1","ind2":" "}},{"700":{"subfields":[{"0":"(IdRef)113433166"},{"1":"http://www.idref.fr/113433166/id"},{"a":"Janodet, Jean-Christophe"},{"d":"(1972-....; "},{"c":"auteur en informatique)."},{"4":"956."},{"4":"opn."},{"e":"Président du jury de soutenance."},{"e":"Membre du jury"}],"ind1":"1","ind2":" "}},{"700":{"subfields":[{"0":"(IdRef)133159906"},{"1":"http://www.idref.fr/133159906/id"},{"a":"Clark, Alexander"},{"d":"(19..-....)."},{"4":"958."},{"4":"opn."},{"e":"Rapporteur de la thèse."},{"e":"Membre du jury"}],"ind1":"1","ind2":" "}},{"700":{"subfields":[{"0":"(IdRef)084103655"},{"1":"http://www.idref.fr/084103655/id"},{"a":"Habrard, Amaury"},{"d":"(1978-....)."},{"4":"958."},{"4":"opn."},{"e":"Rapporteur de la thèse."},{"e":"Membre du jury"}],"ind1":"1","ind2":" "}},{"710":{"subfields":[{"0":"(IdRef)026403447"},{"1":"http://www.idref.fr/026403447/id"},{"a":"Université de Nantes (1962-2021)."},{"4":"dgg."},{"e":"Organisme de soutenance"}],"ind1":"2","ind2":" "}},{"710":{"subfields":[{"0":"(IdRef)033124884"},{"1":"http://www.idref.fr/033124884/id"},{"a":"Université de Nantes."},{"b":"Faculté des sciences et des techniques."},{"4":"985."},{"e":"Autre partenaire associé à la thèse"}],"ind1":"2","ind2":" "}},{"710":{"subfields":[{"0":"(IdRef)134103211"},{"1":"http://www.idref.fr/134103211/id"},{"a":"École doctorale Sciences et technologies de l'information et mathématiques (Nantes)."},{"4":"dgg."},{"e":"Organisme de soutenance"}],"ind1":"2","ind2":" "}},{"710":{"subfields":[{"0":"(IdRef)137062508"},{"1":"http://www.idref.fr/137062508/id"},{"a":"Laboratoire d\u2019Informatique de Nantes Atlantique (UMR 6241) (Nantes)."},{"4":"981."},{"4":"981."},{"e":"Laboratoire associé à la thèse."},{"e":"Laboratoire associé à la thèse"}],"ind1":"2","ind2":" "}},{"776":{"subfields":[{"t":"Grammatical inference of probalistic context-free grammars / James Scicluna"},{"d":"Lille : Atelier national de reproduction des thèses"},{"h":"Microfiches. (@Lille-thèses)"},{"w":"(ABES)249358921"}],"ind1":"0","ind2":" "}},{"886":{"subfields":[{"2":"unimarc"},{"a":"181"},{"a":"i#"},{"b":"xxxe##"}],"ind1":"2","ind2":" "}},{"930":{"subfields":[{"5":"441092104:544341309"},{"b":"441092104"},{"j":"g"}],"ind1":" ","ind2":" "}},{"991":{"subfields":[{"5":"441092104:544341309"},{"a":"Exemplaire modifié automatiquement le 18-07-2024 18:49"}],"ind1":" ","ind2":" "}},{"999":{"subfields":[{"i":"885d7b90-741c-5f66-a99e-5027f10461f0"},{"s":"5355c2f6-d4e3-5163-b0b7-86228948a6eb"},{"t":"0"}],"ind1":"f","ind2":"f"}},{"952":{"subfields":[{"p":"P0 Non empruntable"},{"a":"Nantes Université"},{"b":"Lombarderie"},{"c":"Bu Sciences"},{"d":"Magasin compactus - S'adresser à l'accueil"},{"t":"0"},{"e":"2014 NANT 2071"},{"h":"Locale"},{"i":"Indéterminé"},{"m":"1162211961"}],"ind1":"f","ind2":"f"}},{"952":{"subfields":[{"p":"Prêt 28 ou 56 jours"},{"a":"Nantes Université"},{"b":"Lombarderie"},{"c":"Bu Sciences"},{"d":"Magasin compactus - S'adresser à l'accueil"},{"t":"0"},{"e":"2014 NANT 2071"},{"h":"Locale"},{"i":"Indéterminé"},{"m":"1162211978"}],"ind1":"f","ind2":"f"}}]}
|
genre | (IdRef)027253139 http://www.idref.fr/027253139/id Thèses et écrits académiques. ram |
genre_facet | Thèses et écrits académiques. |
id | in00000511045 |
illustrated | Illustrated |
institution | Nantes Université |
language | English |
oclc_num | 1247894105 |
online_boolean | |
physical | 1 vol. (123 p.) : ill. ; 30 cm. |
publishDate | 2014 |
publisher | [s.n.], |
record_format | marc |
spelling | (IdRef)190169842 http://www.idref.fr/190169842/id Scicluna, James (1987-....). aut. Auteur Inférence grammaticale de grammaires incontextuelles probabilistes. eng Grammatical inference of probalistic context-free grammars / James Scicluna ; sous la direction de Colin de la Higuera. [S.l.] : [s.n.], 2014. 1 vol. (123 p.) : ill. ; 30 cm. txt rdacontent n rdamedia n isbdmedia Thèse rédigée en anglais. Thèse de doctorat : Informatique et applications : Nantes : 2014 Bibliogr. p.107-117. L’inférence grammaticale consiste à apprendre, à partir de données provenant d’un langage, une grammaire susceptible d’expliquer ou de générer le langage en question. Ce travail, concerne les grammaires incontextuelles (ou context-free) probabilistes, plus puissantes que les grammaires régulières, objet de la plupart des travaux en inférence grammaticale. L’apprentissage est non supervisé : aucune information structurelle n’est connue. Le travail comprend un état de l’art concernant l’inférence grammaticale, les grammaires probabilistes et les classes de grammaires permettant un apprentissage distributionnel. Puis nous étudions différents problèmes de décision concernant des questions de (calculs de) distances entre distributions et nous montrons qu’en général il s’agit de problèmes indécidables. Dans un second temps nous donnons une description mathématique de la classe de grammaires qui vont nous intéresser. Le coeur de la thèse concerne le développement de l’algorithme COMINO, de l’analyse de ses propriétés et de l’étude empirique de ses capacités. L’algorithme se déroule en trois phases : durant la première, une relation d’équivalence sur les sous-mots est calculée. Durant la seconde, un solveur est utilisé pour sélectionner un nombre minimal de classes. Enfin, les classes deviennent les nonterminaux d’une grammaire dont les poids des règles sont estimés grâce à l’échantillon. Les résultats expérimentaux témoignent de la robustesse de l’approche mais montrent également les limites de l’approche sur des données réelles de langue naturelle. Probabilistic Context-Free Grammars (PCFGs) are formal statistical models which describe probability distributions on strings and on tree structures of the same strings. Grammatical Inference is a sub-field of machine learning where the task is to learn automata or grammars (such as PCFGs) from information about their languages. In this thesis, we are interested in Grammatical Inference of PCFGs from text. There are various applications for this problem, chief amongst which are Unsupervised Parsing and Language Modelling in Natural Language Processing and RNA secondary structure prediction in Bioinformatics. PCFG inference is however a difficult problem for a variety of reasons. In spite of its importance for various applications, only few positive results have up till now been obtained for this problem. Our main contribution in this thesis is a practical PCFG learning algorithm with some proven properties and based on a principled approach. We define a new subclass of PCFGs (very similar to the one defined in (Clark, 2010)) and use distributional learning and MDL-based techniques in order to learn this class of grammars. We obtain competitive results on experiments that evaluate unsupervised parsing and language modelling. A minor contribution in this thesis is a compendium of undecidability results for distances between PCFGs along with two positive results on PCFGs. Having such results can help in the process of finding learning algorithms for PCFGs. Publication autorisée par le jury Ecole(s) Doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (STIM) (Nantes) Autre(s) contribution(s) : Jean-Christophe Janodet (Président du jury) ; François Coste (Membre du jury) ; Alexander Clark, Amaury Habrard (Rapporteurs) 441092104:544341309 Titre temporairement indisponible à la communication (IdRef)027940373 http://www.idref.fr/027940373/id Apprentissage automatique. ram Inférence grammaticale Grammaires probabilistes (IdRef)027253139 http://www.idref.fr/027253139/id Thèses et écrits académiques. ram (IdRef)053503503 http://www.idref.fr/053503503/id La Higuera, Colin de (19..-....). ths. opn. Directeur de thèse. Membre du jury (IdRef)113433166 http://www.idref.fr/113433166/id Janodet, Jean-Christophe (1972-....; auteur en informatique). 956. opn. Président du jury de soutenance. Membre du jury (IdRef)133159906 http://www.idref.fr/133159906/id Clark, Alexander (19..-....). 958. opn. Rapporteur de la thèse. Membre du jury (IdRef)084103655 http://www.idref.fr/084103655/id Habrard, Amaury (1978-....). 958. opn. Rapporteur de la thèse. Membre du jury (IdRef)026403447 http://www.idref.fr/026403447/id Université de Nantes (1962-2021). dgg. Organisme de soutenance (IdRef)033124884 http://www.idref.fr/033124884/id Université de Nantes. Faculté des sciences et des techniques. 985. Autre partenaire associé à la thèse (IdRef)134103211 http://www.idref.fr/134103211/id École doctorale Sciences et technologies de l'information et mathématiques (Nantes). dgg. Organisme de soutenance (IdRef)137062508 http://www.idref.fr/137062508/id Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes). 981. 981. Laboratoire associé à la thèse. Laboratoire associé à la thèse Grammatical inference of probalistic context-free grammars / James Scicluna Lille : Atelier national de reproduction des thèses Microfiches. (@Lille-thèses) (ABES)249358921 unimarc 181 i# xxxe## |
spellingShingle | Scicluna, James (1987-....) Grammatical inference of probalistic context-free grammars / (IdRef)027940373 http://www.idref.fr/027940373/id Apprentissage automatique. ram Inférence grammaticale Grammaires probabilistes |
title | Grammatical inference of probalistic context-free grammars / |
title_auth | Grammatical inference of probalistic context-free grammars / |
title_full | Grammatical inference of probalistic context-free grammars / James Scicluna ; sous la direction de Colin de la Higuera. |
title_fullStr | Grammatical inference of probalistic context-free grammars / James Scicluna ; sous la direction de Colin de la Higuera. |
title_full_unstemmed | Grammatical inference of probalistic context-free grammars / James Scicluna ; sous la direction de Colin de la Higuera. |
title_short | Grammatical inference of probalistic context-free grammars / |
title_sort | grammatical inference of probalistic context free grammars |
topic | (IdRef)027940373 http://www.idref.fr/027940373/id Apprentissage automatique. ram Inférence grammaticale Grammaires probabilistes |
topic_facet | Apprentissage automatique. |
work_keys_str_mv | AT sciclunajames grammaticalinferenceofprobalisticcontextfreegrammars AT lahigueracolinde grammaticalinferenceofprobalisticcontextfreegrammars AT janodetjeanchristophe grammaticalinferenceofprobalisticcontextfreegrammars AT clarkalexander grammaticalinferenceofprobalisticcontextfreegrammars AT habrardamaury grammaticalinferenceofprobalisticcontextfreegrammars AT universitedenantes19622021 grammaticalinferenceofprobalisticcontextfreegrammars AT universitedenantesfacultedessciencesetdestechniques grammaticalinferenceofprobalisticcontextfreegrammars AT ecoledoctoralesciencesettechnologiesdelinformationetmathematiquesnantes grammaticalinferenceofprobalisticcontextfreegrammars AT laboratoiredinformatiquedenantesatlantiqueumr6241nantes grammaticalinferenceofprobalisticcontextfreegrammars |