Dinel, Yannick (2026). Reconnaissance d’objets par apprentissage machine avec vision limitée supplémentée par données audio et tactiles simulées. Essai de deuxième cycle. Gatineau, Université du Québec en Outaouais, Département d'informatique et d'ingénierie, 243 p.
Prévisualisation |
PDF
Télécharger (16MB) | Prévisualisation |
Résumé
Le nombre de technologies employant les capacités de l’apprentissage machine est en constante évolution dans la société moderne, surtout au niveau de la reconnaissance et la classifcation d’objets. Ces modèles ont plusieurs applications en sécurité et en robotique, mais ceux-ci sont généralement entraînés que sur des données visuelles. Nous identifons alors la possibilité d’explorer l’utilisation de données tactiles et audio conjointement aux données visuelles lors de l’entraînement afn d’améliorer ces modèles. De plus, nous explorons l’importance d’utiliser des points saillants du point de vue de l’attention visuelle lors de la sélection des données d’entraînement.
Puisqu’il existe peu d’ensembles de données à modalités multiples sur le Web, nous décidons d’employer l’outil ObjectFolder 2.0 afn de générer des images visuelles et tactiles simulées ainsi que des fchiers audio simulant des impacts sur divers objets. Nous documentons au passage le fonctionnement de cet outil en plus des modifcations apportées afn de supporter le processus de préparation de données.
Nous entraînons ensuite une série de modèles de classifcation d’apprentissage profond basés sur MobileNetV2, dont certains utilisant une modalité unique et d’autres utilisant des modalités combinées. Les données d’entraînement sont simulées à partir de plusieurs sous-ensembles de points sur divers objets, dont un ensemble de points saillants contre cinq ensembles de points sélectionnés aléatoirement.
Nous démontrons alors que l’utilisation des points saillants permet de créer des modèles visuels plus précis et que leur utilisation avec les autres modalités permet d’accélérer la convergence des modèles lors de l’entraînement. Nous montrons aussi que la combinaison des données tactiles et visuelles dans un même modèle permet d’ofrir une performance comparable au modèle purement visuel équivalent, peu importe l’ensemble de points choisi. Toutefois, nous observons que les données audio apportent une perte de performance lorsque combinées à ces modèles, induisant un niveau de confusion entre les objets avec une composition matérielle similaire.
| Type de document: | Thèse (Essai de deuxième cycle) |
|---|---|
| Directeur de mémoire/thèse: | Cretu, Ana-Maria |
| Départements et école, unités de recherche et services: | Informatique et ingénierie |
| Date de dépôt: | 30 juin 2026 14:44 |
| Dernière modification: | 30 juin 2026 14:44 |
| URI: | https://di.uqo.ca/id/eprint/1948 |
Gestion Actions (Identification requise)
![]() |
Dernière vérification avant le dépôt |

Statistiques de téléchargement
Statistiques de téléchargement