Ngouanfouo, Colbert (2025). Détection automatisée de textes générés par l’intelligence artificielle. Mémoire. Gatineau, Université du Québec en Outaouais, Département d’informatique et d’ingénierie, 64 p.
Prévisualisation |
PDF
Télécharger (3MB) | Prévisualisation |
Résumé
Les grands modèles de langage (LLMs) ont révolutionné le domaine de la généra¬tion de texte en langage naturel (NLG) en démontrant une capacité impressionnante à produire des textes semblables à ceux rédigés par des humains. Cependant, leur utili¬sation à grande échelle soulève des défs qui nécessitent une réflexion approfondie, une surveillance éthique et des pratiques responsables. Il devient donc important de détecter les textes écrits par ces grands modèles afin d’éviter toute utilisation préjudiciable et de maximiser leur potentiel. La détection de texte généré par une machine vise donc à identifier un texte comme étant écrit par une machine ou par un être humain. Pour cette tâche de détection, les travaux antérieurs utilisent principalement comme entrée un encodage du texte sous forme d’un vecteur de grande dimension, tel que celui produit par un modèle de type BERT. Cet encodage a l’inconvénient d’être peu interprétable. Ces travaux utilisent aussi certaines caractéristiques liées aux grands modèles de langage tels que la perplexité d’un modèle. Nous posons la question si les textes générés peuvent être distingués des textes humains par leur grammaire. Pour cela nous proposons une approche qui consiste à encoder la séquence des parties du discours (part-of-speech,POS) dans un texte, et d’utiliser la séquence obtenue comme entrée d’un classifier de type CNN. Dans notre contexte, ces part-of-speech (POS) incluent les classes syntaxiques des mots, l’espace entre les mots, la ponctuation et tout autre symbole (/,£,@ *,...). Nous évaluons la performance de l’approche et la possibilité de la combiner avec d’autres représentations du texte, ainsi que la robustesse de l’approche. Les résultats démontrent que nous pouvons obtenir des performances très compétitives (proche de 90% d’exacti¬tude sur le jeu de données test de la conférence SemEval 2024) seulement en regardant l’agencement des POS, et que les caractéristiques obtenues en considérant les séquences des POS sont complémentaires à une représentation neuronale (vecteur CLS) en ce sens qu’en les combinant, on obtient une amélioration des performances, mieux qu’en consi¬dérant les caractéristiques plus simples comme le comptage des POS. L’évaluation de la robustesse de notre modèle sur des textes ayant subi des attaques (l’insertion des nouveaux paragraphes, l’insertion des caractères spéciaux, la suppression des articles, ...) montre que les attaques qui sont censées tromper le classifier ne semblent pas avoir d’effet notables et que sur la longueur des textes, notre approche est moins performante pour les textes plus courts.
| Type de document: | Thèse (Mémoire) |
|---|---|
| Directeur de mémoire/thèse: | Davoust, Alan |
| Départements et école, unités de recherche et services: | Informatique et ingénierie |
| Date de dépôt: | 28 nov. 2025 14:35 |
| Dernière modification: | 28 nov. 2025 14:35 |
| URI: | https://di.uqo.ca/id/eprint/1868 |
Gestion Actions (Identification requise)
![]() |
Dernière vérification avant le dépôt |

Statistiques de téléchargement
Statistiques de téléchargement