Reconnaissance d'actions à partir d'un faible nombre de vidéos 2D + profondeur : approche par construction de graphes de scène et apprentissage auto-supervisé

L apprentissage par démonstration peut permettre de rendre la robotique plus accessible en ayant simplement à réaliser une tâche devant un robot pour que celui-ci la reproduise ; cependant, il peut être difficile d apprendre des tâches complexes depuis des démonstrations brutes. Une manière de simpl...

Description complète

Détails bibliographiques
Auteurs principaux : Riand Mathieu (Auteur), Le Callet Patrick (Directeur de thèse), Dollé Laurent (Directeur de thèse), Benoît Alexandre (Président du jury de soutenance, Rapporteur de la thèse), Furet Benoît (Membre du jury), Caplier Alice (Membre du jury), Bailly Kevin (Membre du jury)
Collectivités auteurs : Nantes Université 2022-.... (Organisme de soutenance), École doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication Nantes 2022-.... (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Reconnaissance d'actions à partir d'un faible nombre de vidéos 2D + profondeur : approche par construction de graphes de scène et apprentissage auto-supervisé / Mathieu Riand; sous la direction de Patrick Le Callet et de Laurent Dollé
Publié : 2023
Accès en ligne : Accès Nantes Université
Note sur l'URL : Accès au texte intégral
Note de thèse : Thèse de doctorat : Traitement du signal et des images : Nantes Université : 2023
Sujets :
LEADER 05869nlm a2200673 4500
001 PPN272006378
003 http://www.sudoc.fr/272006378
005 20240917060000.0
029 |a FR  |b 2023NANU4014 
033 |a http://www.theses.fr/2023NANU4014 
035 |a (OCoLC)1397314787 
035 |a STAR204147 
100 |a 20230915d2023 k y0frey0103 ba 
101 0 |a fre  |d fre  |d eng  |2 639-2 
102 |a FR 
105 |a ||||ma 00|yy 
135 |a dr||||||||||| 
181 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 |6 z01  |c c  |2 rdamedia 
182 1 |6 z01  |a b 
183 |6 z01  |a ceb  |2 RDAfrCarrier 
200 1 |a Reconnaissance d'actions à partir d'un faible nombre de vidéos 2D + profondeur  |e approche par construction de graphes de scène et apprentissage auto-supervisé  |f Mathieu Riand  |g sous la direction de Patrick Le Callet et de Laurent Dollé 
214 1 |d 2023 
230 |a Données textuelles 
304 |a Titre provenant de l'écran-titre 
314 |a Ecole(s) Doctorale(s) : École Doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication (Nantes) 
314 |a Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire) 
314 |a Autre(s) contribution(s) : Alexandre Benoît (Président du jury) ; Benoît Furet, Alice Caplier, Kevin Bailly (Membre(s) du jury) ; Alexandre Benoît (Rapporteur(s)) 
328 0 |b Thèse de doctorat  |c Traitement du signal et des images  |e Nantes Université  |d 2023 
330 |a L apprentissage par démonstration peut permettre de rendre la robotique plus accessible en ayant simplement à réaliser une tâche devant un robot pour que celui-ci la reproduise ; cependant, il peut être difficile d apprendre des tâches complexes depuis des démonstrations brutes. Une manière de simplifier ce processus est de séparer les tâches en actions simples que le robot pourra apprendre indépendamment. Dans cette thèse, nous proposons donc d extraire les actions élémentaires effectuées par des humains dans des vidéos ; pour cela, nous représentons les scènes sous la forme de graphes symboliques dans lesquels chaque noeud est un objet de la démonstration, et nous les classifions grâce à un GNN (Graph Neural Network). Nous explorons plusieurs stratégies de conception des graphes et montrons qu il est possible d améliorer la qualité de la reconnaissance d actions en choisissant la bonne représentation. Puisque les démonstrations sont rarement annotées, nous proposons également des techniques d apprentissage auto-supervisé appliquées aux graphes permettant de faire usage de données non labellisées pour augmenter encore les performances de notre modèle. Enfin, nous enregistrons 760 démonstrations et récoltons l attention humaine sur une partie de ces vidéos afin de la comparer à l attention de notre GNN. 
330 |a Learning from demonstration can ease the access to robotics by simply having to do a task in front of a robot for it to be able to reproduce the same task ; however, it can be hard to learn complex tasks from raw demonstrations. A way to simplify this process it to cut tasks in simple actions that the robot will learn independently. In this thesis, we propose to extract elementary actions performed by humans in videos ; in order to do this, we represent our scenes as graphs where each node is an object from the demonstration, and we classify them using a GNN (Graph Neural Network). We explore several design strategies for our graphs and show that is is possible to improve the quality of action recognition by carefully chosing the right representation. Since video demonstrations are rarely annotated, we also propose to apply self-supervised techniques to our graphs in order to make use of our annotated data to further improve our model s performance. Finally, we record 760 demonstrations and gather human attention on some of them to compare it to the attention of our GNN. 
337 |a Configuration requise : un logiciel capable de lire un fichier au format : PDF 
541 | |a Action recognition from a small number of 2D + depth videos  |e an approach using scene graphs and self-supervised learning  |z eng 
606 |3 PPN027884120  |a Robotique  |2 rameau 
606 |3 PPN027673618  |a Traitement d'images  |x Techniques numériques  |2 rameau 
608 |3 PPN027253139  |a Thèses et écrits académiques  |2 rameau 
610 0 |a Reconnaissance d actions 
610 0 |a Graphes de scène 
610 0 |a Apprentissage auto-supervisé 
610 0 |a GNN ((Graph Neural Network) 
686 |a 530  |2 TEF 
700 1 |3 PPN272001945  |a Riand  |b Mathieu  |f 1997-....  |4 070 
701 1 |3 PPN060370068  |a Le Callet  |b Patrick  |f 19..-....  |4 727 
701 1 |3 PPN151483892  |a Dollé  |b Laurent  |f 1983-....  |4 727 
701 1 |3 PPN118249711  |a Benoît  |b Alexandre  |f 1980-....  |c auteur en traitement du signal  |4 956  |4 958 
701 1 |3 PPN077679172  |a Furet  |b Benoît  |4 555 
701 1 |3 PPN11068706X  |a Caplier  |b Alice  |f 1968-....  |c chercheuse en informatique  |4 555 
701 1 |3 PPN178678244  |a Bailly  |b Kevin  |f 19..-....  |c chercheur en informatique  |4 555 
711 0 2 |3 PPN258086599  |a Nantes Université  |c 2022-....  |4 295 
711 0 2 |3 PPN268274525  |a École doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication  |c Nantes  |c 2022-....  |4 996 
711 0 2 |3 PPN203637585  |a Laboratoire des Sciences du Numérique de Nantes  |4 981 
801 3 |a FR  |b Abes  |c 20230915  |g AFNOR 
856 4 |q PDF  |s 190758291  |u http://www.theses.fr/2023NANU4014/document  |z Accès au texte intégral 
856 4 |u http://www.theses.fr/2023NANU4014/abes 
856 4 |u https://tel.archives-ouvertes.fr/tel-04208309 
930 |5 441099901:797206361  |b 441099901  |j g 
991 |5 441099901:797206361  |a exemplaire créé automatiquement par STAR 
998 |a 948192