Modèles d’apprentissage profond adaptatifs et généralisables pour la segmentation d’images médicales

Statistiques de téléchargement

Téléchargements

Téléchargements par mois depuis la dernière année

Allaoui, Mohamed Lamine (2026). Modèles d’apprentissage profond adaptatifs et généralisables pour la segmentation d’images médicales. Thèse. Gatineau, Université du Québec en Outaouais, Département d'informatique et d'ingénierie, 224 p.

[thumbnail of Lamine_Allaoui_Mohamed_These_2026_1A.pdf]

Prévisualisation

PDF
Télécharger (52MB) | Prévisualisation

Résumé

«La segmentation d’images médicales fait face à des défs majeurs en raison de la grande variabilité entre les modalités d’imagerie, les structures anatomiques, les pré¬sentations pathologiques et les protocoles d’acquisition, ce qui limite considérablement la capacité de généralisation des approches automatisées traditionnelles. Cette thèse présente une investigation systématique d’architectures d’apprentissage profond adap¬tatives et généralisables, visant à gérer cette variabilité à des échelles progressivement croissantes. Elle établit un cadre méthodologique complet en quatre étapes, allant de la spécialisation intra-domaine à des capacités d’adaptation universelles.
La recherche propose cinq innovations architecturales majeures abordant la gestion de la variabilité selon une progression structurée. MEDiXNet (Mixture of Expert Derma¬tological Imaging Networks) introduit des architectures à mixture-of-experts avec rou¬tage dynamique et modules d’attention visuelle, traitant spécifquement la variabilité intra-domaine en imagerie dermoscopique par une gestion spécialisée des diférentes pré¬sentations de lésions. MixLVMM (Mixture of Lightweight Vision Mamba Models) fait évoluer cette approche en intégrant des architectures Vision Mamba avec routage par triplet-loss et génération automatique d’ancres, atteignant des performances équivalentes avec une réduction signifcative du nombre de paramètres. HA-U3Net (Hybrid Atten¬tion U3-Net) étend ces capacités à la variabilité inter-modalités tridimensionnelle grâce à des blocs U3 imbriqués et des mécanismes d’attention hybrides, démontrant une géné¬ralisation robuste à travers les modalités IRM, CT, échographie et PET.
TD-DIMB (Text-Driven Dense Inverted Mamba Bottlenecks) progresse vers la ges¬tion de la variabilité sémantique en intégrant des prompts en langage naturel avec des modèles fondamentaux médicaux à l’aide des modules Dense Inverted Mamba Bottleneck et des mécanismes Text-Driven Selective Scan 2D, permettant une adaptation dynamique des tâches via une optimisation cliniquement informée. FUSE-RAG (Few-shot Univer¬sal Segmentation with Retrieval-Augmented Generation) en constitue l’aboutissement, atteignant une adaptation universelle grâce à un mécanisme de génération augmentée par récupération (RAG) spécifquement conçu pour l’imagerie médicale. Ce framework intègre des mécanismes de récupération ROI-aware qui injectent la connaissance ana¬tomique experte dans les représentations des modèles fondamentaux, démontrant des améliorations substantielles de 10,26 % et 8,86 % du coefcient de Dice sur la segmen¬tation de lésions d’AVC et de pneumonies dans des domaines anatomiques entièrement nouveaux.»--(Extrait du résumé)

« Medical image segmentation faces major challenges due to the extensive variabi¬lity across imaging modalities, anatomical structures, pathological presentations, and acquisition protocols, which severely limits the generalization capability of traditional automated approaches. This thesis presents a systematic investigation of adaptive and generalizable deep learning architectures designed to handle such variability at progres¬sively increasing scales. It establishes a comprehensive four-stage methodological frame¬work that progresses from intra-domain specialization to universal few-shot adaptation capabilities.
The research introduces fve major architectural innovations that address variability management through a structured progression. MEDiXNet (Mixture of Expert Derma¬tological Imaging Networks) introduces mixture-of-experts architectures with dynamic routing and visual attention modules, specifcally addressing intra-domain variability in dermoscopic imaging through specialized handling of diverse lesion presentations. MixLVMM (Mixture of Lightweight Vision Mamba Models) extends this approach by integrating Vision Mamba architectures with triplet-loss-based routing and automatic anchor generation, achieving comparable performance with a signifcant reduction in parameters. HA-U3Net (Hybrid Attention U3-Net) expands these capabilities to three¬dimensional inter-modality variability using nested U3-blocks and hybrid attention me¬chanisms, demonstrating robust generalization across MRI, CT, ultrasound, and PET modalities.
TD-DIMB (Text-Driven Dense Inverted Mamba Bottlenecks) advances toward se-mantic variability management by integrating natural language prompts with medical foundation models through Dense Inverted Mamba Bottleneck modules and Text-Driven Selective Scan 2D mechanisms, enabling dynamic task adaptation through clinically informed optimization. FUSE-RAG (Few-shot Universal Segmentation with Retrieval-Augmented Generation) represents the culmination of this progression, achieving uni¬versal adaptation through a Retrieval-Augmented Generation (RAG) mechanism spe¬cifcally designed for medical imaging. This framework integrates ROI-aware retrieval mechanisms that embed expert anatomical knowledge into foundation model representa¬tions, demonstrating substantial Dice coefcient improvements of 10.26 % and 8.86 % in stroke lesion and pneumonia segmentation across entirely unseen anatomical domains.»--(Extrait du résumé)

Type de document:	Thèse (Thèse)
Directeur de mémoire/thèse:	Saïd Allili, Mohand
Départements et école, unités de recherche et services:	Informatique et ingénierie
Date de dépôt:	10 avr. 2026 17:29
Dernière modification:	10 avr. 2026 17:29
URI:	https://di.uqo.ca/id/eprint/1916

Gestion Actions (Identification requise)

Dernière vérification avant le dépôt