Integrating semantic web and unstructured information processing environments : a visual rule-based approach

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

El-Kass, Wassim (2018). Integrating semantic web and unstructured information processing environments : a visual rule-based approach. Thèse. Gatineau, Université du Québec en Outaouais, Département d'informatique et d'ingénierie, 161 p.

[thumbnail of El-Kass_Wassim_2018_thèse.pdf]

Prévisualisation

PDF
Télécharger (4MB) | Prévisualisation

Résumé

Les informations non-structurées réfèrent principalement au texte, mais aussi à toutes les informations stockées sans une structure de données prédéfinie. Des progrès significatifs ont été réalisés dans le Traitement automatique du langage naturel (TALN), avec des annotations syntaxique et toponymique très fiables utilisant l’étiquetage morpho-syntaxique (Part of Speech (POS) tagging), la segmentation des phrases (Noun Phrase (NP) chunking), et la reconnaissance d'entités nommées (Named-Entity Recognition, NER).

Cependant, l'annotation sémantique reste une tâche difficile, dont la précision et le rappel varient considérablement selon les types de documents et domaines d'application. Tandis que les textes simples tels que des messages électroniques dans un seul domaine peuvent être analysés avec des résultats cohérents, des documents professionnels et scientifiques de taille similaire, comme les nouvelles et les résumés, présentent trop de complexité avec divers vocabulaires et significations ambiguës à travers des phrases et des sections du document. Les principales difficultés restent la relation des concepts entre eux sous forme de graphiques d'annotation, et leur combinaison pour un classement dans une hiérarchie de classes sémantiquement valide et exhaustive.

Dans cette thèse, nous démontrons comment utiliser les technologies du web sémantique, en particulier les ontologies et bases de données de graphes, pour aider à améliorer la qualité (F-score) de ces tâches d'annotation et de classification. Nous intégrons une ontologie formelle avec une plate-forme de TALN standard, la testons sur un corpus de la recherche publique, et rapportons des F-scores supérieurs aux algorithmes d'apprentissage machine antérieurs.

Nous développons et testons une plate-forme innovante, soit une Architecture adaptative à base de règles pour l’extraction de connaissances (Adaptive Rules-Driven Architecture for Knowledge Extraction, ARDAKE). Notre logiciel intègre la norme Architecture de gestion de l’information non-structurée (Unstructured Information Management Architecture, UIMA) avec une base de données graphique standard pour stocker nos ontologies. Nous développons des extensions au langage de règles UIMA Ruta pour invoquer et vérifier les rapports entre classes de l'ontologie. D’autres extensions comprennent le calcul de mesures complémentaire utiles pour intégrer les règles de correspondance (matching) entre mots et classes, soient conditionnelles, statistiques, et basées sur les distances sémantiques. Nous développons également un nouvel algorithme itératif des n-grammes afin de combiner les règles de correspondance et d’optimiser les F-scores et l’aire sous les courbes de Caractéristique de fonctionnement du récepteur (Receiver Operating Characteristic, ROC). Nous proposons un nouveau style graphique circulaire (pie-chart) pour faciliter la visualisation de l'évaluation de la performance d'annotation. Ces composants sont intégrés dans une interface graphique permettant aux experts du domaine de règles de composer visuellement des ensembles de règles, dans des hiérarchies de complexité variable, de scorer et comparer leur performance relative, et enfin les améliorer en intégrant des sources d'ontologies supplémentaires.

Notre plate-forme est testée sur un cas d'utilisation particulier dans les sciences de la santé : une méthode d'analyse de la littérature médicale selon la population, l’intervention, le contrôle, et les résultats (Population, Intervention, Control, and Outcome, PICO). Nous montrons que notre plate-forme peut efficacement et automatiquement produire des ensembles de règles parcimonieux, avec des F-scores plus élevés sur les classes P et I que les auteurs antérieurs utilisant des algorithmes d'apprentissage machine.

Type de document:	Thèse (Thèse)
Directeur de mémoire/thèse:	Gagnon, Stéphane
Co-directeurs de mémoire/thèse:	Iglewski, Michal
Départements et école, unités de recherche et services:	Informatique et ingénierie
Date de dépôt:	21 juin 2018 13:04
Dernière modification:	21 juin 2018 14:29
URI:	https://di.uqo.ca/id/eprint/996

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt