Soutenance de thèse : Yu Liu
Yu Liu a soutenu sa thèse intitulée « Lightweight Architectures for Spatiotemporal Action Detection in Real-Time »
Le jury était composé de :
- Professeur Olivier SENTIEYS, Université de Rennes, Rapporteur
- Professeur Stéphane CANU, INSA de Rouen, Rapporteur
- Professeure Catherine ACHARD, Sorbonne Université, Examinatrice
- Professeur Fabrice MERIAUDEAU, Université de Bourgogne Franche-Comté, Examinateur
- Professeure Fan YANG, Université de Bourgogne Franche-Comté, Co-directrice de thèse
- Professeur Dominique GINHAC, Université de Bourgogne Franche-Comté, Directeur de thèse
Résumé :
Depuis la dernière décennie, la croissance explosive de vidéos fait naître un large éventail d’applications nécessitant l’analyse et la compréhension des actions humaines. Les recherches connexes actuelles se concentrent principalement sur l’amélioration des performances de détection de reconnaissance d’actions. Cependant, certains scénarios du monde réel exigent des réponses spontanées réalisées sur des systèmes embarqués avec des ressources limitées. Les méthodes existantes sont difficilement déployables dans ce contexte, puisqu’elles utilisent des architectures lourdes comme réseaux de neurones convolutifs 3D pour extraire les caractéristiques spatiotemporelles d’un vidéo ou calculent explicitement le flux optique des mouvement. Dans cette thèse, nous explorons la faisabilité de réaliser la détection spatiotemporelle d’action satisfaisant simultanément plusieurs contraintes d’applications grand publique : robustesse, temps réel, bas coût, ergonomie, bonne portabilité et longue autonomie énergétique.
Pour ce faire, nous proposons trois architectures de détection d’action couplant différents schémas de modélisation spatiotemporelle avec des CNN 2D compacts. La première réalise la détection au niveau d’une image statique en approximant les caractéristiques de la plupart des frames d’une séquence vidéo pour accélérer le traitement. Nous explorons ensuite un paradigme de détection multi-images pour traiter simultanément la détection temporelle et la prédiction des boîtes englobantes des actions spécifiques pour former des tubelets. Enfin, nous concevons une représentation de mouvement de type flux calculé à la volée à partir d’images vidéo brutes, et étendons l’approche de détection de tubelet à deux CNN pour extraire conjointement les caractéristiques spatiales et temporelles des actions. Les résultats expérimentaux obtenus sur des bases de données publiques montrent les améliorations progressives de nos approches en termes de précision, d’efficacité, et de vitesse de traitement.
- kc_data:
- a:8:{i:0;s:0:"";s:4:"mode";s:0:"";s:3:"css";s:0:"";s:9:"max_width";s:0:"";s:7:"classes";s:0:"";s:9:"thumbnail";s:0:"";s:9:"collapsed";s:0:"";s:9:"optimized";s:0:"";}
- kc_raw_content:
Yu Liu a soutenu sa thèse intitulée "Lightweight Architectures for Spatiotemporal Action Detection in Real-Time"
Le jury était composé de :
- Professeur Olivier SENTIEYS, Université de Rennes, Rapporteur
- Professeur Stéphane CANU, INSA de Rouen, Rapporteur
- Professeure Catherine ACHARD, Sorbonne Université, Examinatrice
- Professeur Fabrice MERIAUDEAU, Université de Bourgogne Franche-Comté, Examinateur
- Professeure Fan YANG, Université de Bourgogne Franche-Comté, Co-directrice de thèse
- Professeur Dominique GINHAC, Université de Bourgogne Franche-Comté, Directeur de thèse
Résumé :Depuis la dernière décennie, la croissance explosive de vidéos fait naître un large éventail d’applications nécessitant l’analyse et la compréhension des actions humaines. Les recherches connexes actuelles se concentrent principalement sur l’amélioration des performances de détection de reconnaissance d’actions. Cependant, certains scénarios du monde réel exigent des réponses spontanées réalisées sur des systèmes embarqués avec des ressources limitées. Les méthodes existantes sont difficilement déployables dans ce contexte, puisqu’elles utilisent des architectures lourdes comme réseaux de neurones convolutifs 3D pour extraire les caractéristiques spatiotemporelles d’un vidéo ou calculent explicitement le flux optique des mouvement. Dans cette thèse, nous explorons la faisabilité de réaliser la détection spatiotemporelle d’action satisfaisant simultanément plusieurs contraintes d’applications grand publique : robustesse, temps réel, bas coût, ergonomie, bonne portabilité et longue autonomie énergétique.
Pour ce faire, nous proposons trois architectures de détection d’action couplant différents schémas de modélisation spatiotemporelle avec des CNN 2D compacts. La première réalise la détection au niveau d’une image statique en approximant les caractéristiques de la plupart des frames d’une séquence vidéo pour accélérer le traitement. Nous explorons ensuite un paradigme de détection multi-images pour traiter simultanément la détection temporelle et la prédiction des boîtes englobantes des actions spécifiques pour former des tubelets. Enfin, nous concevons une représentation de mouvement de type flux calculé à la volée à partir d’images vidéo brutes, et étendons l’approche de détection de tubelet à deux CNN pour extraire conjointement les caractéristiques spatiales et temporelles des actions. Les résultats expérimentaux obtenus sur des bases de données publiques montrent les améliorations progressives de nos approches en termes de précision, d’efficacité, et de vitesse de traitement.
- extrait:
- lien_externe:
- equipe:
- a:1:{i:0;s:5:"CORES";}
- tags:
- Évenement