A learning approach for spam detection using semantic representation

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Saidani, Nadjate (2021). A learning approach for spam detection using semantic representation. Thèse. Gatineau, Université du Québec en Outaouais, Département d'informatique et d'ingénierie, 127 p.

[thumbnail of Saidani_Nadjate_2021_these.pdf]

Prévisualisation

PDF
Télécharger (2MB) | Prévisualisation

Résumé

L’utilisation du courriel est considérée comme le moyen de communication le plus populaire depuis des décennies. Cependant, sa popularité a engendré un problème majeur lié à la réception de courriels non sollicités et indésirables. Ces courriels, communément appelés spam, représentent une menace majeure pour les individus et les organisations. Même si, dans la littérature, beaucoup de travaux ont été consacrés à la détection de spam, ce dernier représente toujours un réel problème pour la sécurité des infrastructures
informatiques.

La plupart des travaux de recherche pour la détection de spam utilisent des approches basées sur le contenu, qui ont montré des résultats prometteurs. Ces dernières utilisent habituellement des représentations textuelles, sous forme d’espaces de caractéristiques, permettant la discrimination courriel spam/courriel légitime à l’aide des algorithmes de classification. Cependant, la plupart de ces méthodes utilisent des espaces holistiques et de grandes dimensions qui ne considèrent pas les aspects sémantiques de haut niveau du texte et ignorent la spécificité du spam dans différents domaines thématiques.

Cette thèse traite ce problème en proposant une approche originale pour la détection de spam qui interprète le contenu des courriels sur deux niveaux sémantiques différents. Dans le premier niveau, nous catégorisons les courriels par domaines thématiques spécifiques (ex., Santé, Education, Finance, etc.) pour permettre une vue conceptuelle distincte pour les courriels spam dans chaque domaine. Dans le second niveau, nous extrayons automatiquement dans chaque domaine un ensemble de caractéristiques sémantiques à partir de courriels étiquetés, que nous représentons sous forme de règles permettant la détection de spam. Ces caractéristiques résument le contenu des courriels en un ensemble de sujets formant des espaces de caractéristiques compacts qui distinguent efficacement les courriels spam des courriels légitimes.

Des expériences sur un large corpus de courriels ont montré que la méthode proposée fournit une représentation efficace de la structure sémantique interne du contenu des courriels, ce qui permet d’obtenir des résultats de filtrage anti-spam plus précis et plus efficaces par rapport aux méthodes existantes. Ils ont également démontré que le fait de disposer d’un classificateur spécialisé pour cibler les messages spam de chaque domaine peut améliorer la discrimination spam/courriels légitimes au sein du domaine et améliorer les performances globales de détection de spam.

Type de document:	Thèse (Thèse)
Directeur de mémoire/thèse:	Adi, Kamel
Co-directeurs de mémoire/thèse:	Allili, Mohand Saïd
Départements et école, unités de recherche et services:	Informatique et ingénierie
Date de dépôt:	28 sept. 2021 14:27
Dernière modification:	28 sept. 2021 14:27
URI:	https://di.uqo.ca/id/eprint/1311

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt