Dépôt institutionnel de l'UQO
RECHERCHER

Impact de l'intégration d'une ontologie normée XBRL à la classification automatique de textes : une application aux nouvelles financières

Messaoudi, Sadia (2011). Impact de l'intégration d'une ontologie normée XBRL à la classification automatique de textes : une application aux nouvelles financières. Mémoire. Gatineau, Université du Québec en Outaouais, Département d'informatique et d'ingénierie.

Le plein texte n'est pas disponible pour ce document.

Résumé

Bien que beaucoup de méthodes développées dans le domaine de la catégorisation automatique de textes (CAT) ont permis d’atteindre des niveaux de précision appréciables lorsqu’il s’agit de textes à structures simple (ex. courriels, résumés, etc.), il reste néanmoins encore des défis à relever dans le cas de documents complexes tels les nouvelles financières et autres analyses similaires à base de connaissance. Cette complexité rend plus difficile la formalisation et la mise à jour d’une base de connaissance représentative, ce qui influencera directement la feuille de textes dans le repérage de sujets communs entre les textes et les composantes (par analyse de similarités et de hiérarchies) et leur suivi à travers le temps (ex. Topic Detection and Tracking). Dans ce mémoire, nous proposons d’adopter, comme modèle de représentation formelle des connaissances, les ontologies normées qui ont récemment démontré une amélioration dans les résultats de classification. Parmi les recherches réalisées dans ce domaine, nous pouvons citer l’ontologie Wikipedia qui possède à elle seule, en 2007, 2 millions d’entrée [1], la classification multilingue à base d’ontologies [2] et l’intégration des ontologies dans les tâches de recherche d’information (spécialement dans le regroupement de textes et les tâches de classification) [3]. Afin de valider notre approche, des expériences seront menées via l’utilisation du classificateur commercial IBM Classification Module (ICM, un module d’IBM OmnFind). Nos tests de classification seront effectués sur un sous-ensemble précis de nouvelles du secteur financier provenant du Reuters Corpus Version 1 (RCV1) lequel, avec ses 810,000 nouvelles, correspond à la plus large collection de dépêches disponibles.

Type de document: Thèse (Mémoire)
Informations complémentaires: Comprend des références bibliographiques : 119-122
Mots-clés libres: Exploration de données; Regroupement des documents; Classification automatique
Départements et école, unités de recherche et services: Informatique et ingénierie
Date de dépôt: 10 déc. 2012 15:42
Dernière modification: 23 oct. 2015 13:12
URI: http://di.uqo.ca/id/eprint/489

Actions (Identification requise)

Dernière vérification avant le dépôt Dernière vérification avant le dépôt