Reconnaissance d'actions à partir d'un faible nombre de vidéos 2D + profondeur : approche par construction de graphes de scène et apprentissage auto-supervisé

L apprentissage par démonstration peut permettre de rendre la robotique plus accessible en ayant simplement à réaliser une tâche devant un robot pour que celui-ci la reproduise ; cependant, il peut être difficile d apprendre des tâches complexes depuis des démonstrations brutes. Une manière de simpl...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Riand Mathieu (Auteur), Le Callet Patrick (Directeur de thèse), Dollé Laurent (Directeur de thèse), Benoît Alexandre (Président du jury de soutenance, Rapporteur de la thèse), Furet Benoît (Membre du jury), Caplier Alice (Membre du jury), Bailly Kevin (Membre du jury)
Collectivités auteurs : Nantes Université 2022-.... (Organisme de soutenance), École doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication Nantes 2022-.... (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Reconnaissance d'actions à partir d'un faible nombre de vidéos 2D + profondeur : approche par construction de graphes de scène et apprentissage auto-supervisé / Mathieu Riand; sous la direction de Patrick Le Callet et de Laurent Dollé
Publié : 2023
Accès en ligne : Accès Nantes Université
Note sur l'URL : Accès au texte intégral
Note de thèse : Thèse de doctorat : Traitement du signal et des images : Nantes Université : 2023
Sujets :
Description
Résumé : L apprentissage par démonstration peut permettre de rendre la robotique plus accessible en ayant simplement à réaliser une tâche devant un robot pour que celui-ci la reproduise ; cependant, il peut être difficile d apprendre des tâches complexes depuis des démonstrations brutes. Une manière de simplifier ce processus est de séparer les tâches en actions simples que le robot pourra apprendre indépendamment. Dans cette thèse, nous proposons donc d extraire les actions élémentaires effectuées par des humains dans des vidéos ; pour cela, nous représentons les scènes sous la forme de graphes symboliques dans lesquels chaque noeud est un objet de la démonstration, et nous les classifions grâce à un GNN (Graph Neural Network). Nous explorons plusieurs stratégies de conception des graphes et montrons qu il est possible d améliorer la qualité de la reconnaissance d actions en choisissant la bonne représentation. Puisque les démonstrations sont rarement annotées, nous proposons également des techniques d apprentissage auto-supervisé appliquées aux graphes permettant de faire usage de données non labellisées pour augmenter encore les performances de notre modèle. Enfin, nous enregistrons 760 démonstrations et récoltons l attention humaine sur une partie de ces vidéos afin de la comparer à l attention de notre GNN.
Learning from demonstration can ease the access to robotics by simply having to do a task in front of a robot for it to be able to reproduce the same task ; however, it can be hard to learn complex tasks from raw demonstrations. A way to simplify this process it to cut tasks in simple actions that the robot will learn independently. In this thesis, we propose to extract elementary actions performed by humans in videos ; in order to do this, we represent our scenes as graphs where each node is an object from the demonstration, and we classify them using a GNN (Graph Neural Network). We explore several design strategies for our graphs and show that is is possible to improve the quality of action recognition by carefully chosing the right representation. Since video demonstrations are rarely annotated, we also propose to apply self-supervised techniques to our graphs in order to make use of our annotated data to further improve our model s performance. Finally, we record 760 demonstrations and gather human attention on some of them to compare it to the attention of our GNN.
Variantes de titre : Action recognition from a small number of 2D + depth videos : an approach using scene graphs and self-supervised learning
Notes : Titre provenant de l'écran-titre
Ecole(s) Doctorale(s) : École Doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication (Nantes)
Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire)
Autre(s) contribution(s) : Alexandre Benoît (Président du jury) ; Benoît Furet, Alice Caplier, Kevin Bailly (Membre(s) du jury) ; Alexandre Benoît (Rapporteur(s))
Configuration requise : Configuration requise : un logiciel capable de lire un fichier au format : PDF