Dépôt institutionnel de l'UQO
RECHERCHER

Classification supervisée de documents : étude comparative

Téléchargements

Téléchargements par mois depuis la dernière année

Plus de statistiques...

Ouchiha, Lahlou (2016). Classification supervisée de documents : étude comparative. Essai de deuxième cycle. Gatineau, Université du Québec en Outaouais, Département d'informatique et d'ingénierie, 40 p.

[thumbnail of Ouchiha_Lahlou_2016_essai_compressé.pdf]
Prévisualisation
PDF
Télécharger (15MB) | Prévisualisation

Résumé

La classification (catégorisation) de texte est plus qu’essentielle à l’ère d’internet et des Big data. Que ce soit dans la recherche documentaire, à l’image des moteurs de recherche qui s’émergent de toutes parts, ou bien de la catégorisation de documents texte, du classement de mails, du ranking des pages web, le principe reste le même mais les techniques différent. Et pour chaque besoin il y a une ou plusieurs solutions adéquates. Qu’il s’agit de l’apprentissage supervisé (classification) ou non supervisé (clustering), le text minig (fouille de texte) est soumis à un ensemble de règles et à des algorithmes bien définis, parmi ces derniers, issus d’abord du domaine de l’intelligence artificielle et ensuite du data minig, qui sont souvent utilisés en text minig, nous pouvons citer : les arbres de décision, les réseaux de neurones, les k-moyens, les k les plus proches, le classificateur de bayes naïf CNB, la Machine à Vecteur de Support MVS et d’autres. Dans cet essai nous nous sommes intéressés plus exactement à la différence entre trois algorithmes à savoir : les arbres de décision, la machine à vecteur de support et le classificateur Naïf Bayes, nous aimerions d’abord définir les différentes étapes de la classification de texte (apprentissage supervisé), ensuite nous allons étudier la manière avec laquelle ces algorithmes réagissent, sachant que les données sont les mêmes, pour chacun d’entre eux, et elles ont subi le même processus de prétraitement. Des mesures de score, tel que la matrice de confusion ou bien la F-Mesure sont utilisés pour illustrer parfaitement, à la fois, le taux d’erreurs de chaque classificateur lors de la phase de test ainsi que sa généralisation en lui proposant de nouvelles données.

Type de document: Thèse (Essai de deuxième cycle)
Directeur de mémoire/thèse: Talbi, Larbi
Informations complémentaires: Comprend des références bibliographiques : p. 40
Mots-clés libres: Regroupement des documents; Classification automatique; Exploration de données; Fichiers; Organisation
Départements et école, unités de recherche et services: Informatique et ingénierie
Date de dépôt: 24 févr. 2016 21:12
Dernière modification: 29 nov. 2023 21:20
URI: https://di.uqo.ca/id/eprint/806

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt