Allaoui, Mohamed Lamine (2026). Modèles d’apprentissage profond adaptatifs et généralisables pour la segmentation d’images médicales. Thèse. Gatineau, Université du Québec en Outaouais, Département d'informatique et d'ingénierie, 224 p.
Prévisualisation |
PDF
Télécharger (52MB) | Prévisualisation |
Résumé
«La segmentation d’images médicales fait face à des défs majeurs en raison de la grande variabilité entre les modalités d’imagerie, les structures anatomiques, les pré¬sentations pathologiques et les protocoles d’acquisition, ce qui limite considérablement la capacité de généralisation des approches automatisées traditionnelles. Cette thèse présente une investigation systématique d’architectures d’apprentissage profond adap¬tatives et généralisables, visant à gérer cette variabilité à des échelles progressivement croissantes. Elle établit un cadre méthodologique complet en quatre étapes, allant de la spécialisation intra-domaine à des capacités d’adaptation universelles.
La recherche propose cinq innovations architecturales majeures abordant la gestion de la variabilité selon une progression structurée. MEDiXNet (Mixture of Expert Derma¬tological Imaging Networks) introduit des architectures à mixture-of-experts avec rou¬tage dynamique et modules d’attention visuelle, traitant spécifquement la variabilité intra-domaine en imagerie dermoscopique par une gestion spécialisée des diférentes pré¬sentations de lésions. MixLVMM (Mixture of Lightweight Vision Mamba Models) fait évoluer cette approche en intégrant des architectures Vision Mamba avec routage par triplet-loss et génération automatique d’ancres, atteignant des performances équivalentes avec une réduction signifcative du nombre de paramètres. HA-U3Net (Hybrid Atten¬tion U3-Net) étend ces capacités à la variabilité inter-modalités tridimensionnelle grâce à des blocs U3 imbriqués et des mécanismes d’attention hybrides, démontrant une géné¬ralisation robuste à travers les modalités IRM, CT, échographie et PET.
TD-DIMB (Text-Driven Dense Inverted Mamba Bottlenecks) progresse vers la ges¬tion de la variabilité sémantique en intégrant des prompts en langage naturel avec des modèles fondamentaux médicaux à l’aide des modules Dense Inverted Mamba Bottleneck et des mécanismes Text-Driven Selective Scan 2D, permettant une adaptation dynamique des tâches via une optimisation cliniquement informée. FUSE-RAG (Few-shot Univer¬sal Segmentation with Retrieval-Augmented Generation) en constitue l’aboutissement, atteignant une adaptation universelle grâce à un mécanisme de génération augmentée par récupération (RAG) spécifquement conçu pour l’imagerie médicale. Ce framework intègre des mécanismes de récupération ROI-aware qui injectent la connaissance ana¬tomique experte dans les représentations des modèles fondamentaux, démontrant des améliorations substantielles de 10,26 % et 8,86 % du coefcient de Dice sur la segmen¬tation de lésions d’AVC et de pneumonies dans des domaines anatomiques entièrement nouveaux.»--(Extrait du résumé)
« Medical image segmentation faces major challenges due to the extensive variabi¬lity across imaging modalities, anatomical structures, pathological presentations, and acquisition protocols, which severely limits the generalization capability of traditional automated approaches. This thesis presents a systematic investigation of adaptive and generalizable deep learning architectures designed to handle such variability at progres¬sively increasing scales. It establishes a comprehensive four-stage methodological frame¬work that progresses from intra-domain specialization to universal few-shot adaptation capabilities.
The research introduces fve major architectural innovations that address variability management through a structured progression. MEDiXNet (Mixture of Expert Derma¬tological Imaging Networks) introduces mixture-of-experts architectures with dynamic routing and visual attention modules, specifcally addressing intra-domain variability in dermoscopic imaging through specialized handling of diverse lesion presentations. MixLVMM (Mixture of Lightweight Vision Mamba Models) extends this approach by integrating Vision Mamba architectures with triplet-loss-based routing and automatic anchor generation, achieving comparable performance with a signifcant reduction in parameters. HA-U3Net (Hybrid Attention U3-Net) expands these capabilities to three¬dimensional inter-modality variability using nested U3-blocks and hybrid attention me¬chanisms, demonstrating robust generalization across MRI, CT, ultrasound, and PET modalities.
TD-DIMB (Text-Driven Dense Inverted Mamba Bottlenecks) advances toward se-mantic variability management by integrating natural language prompts with medical foundation models through Dense Inverted Mamba Bottleneck modules and Text-Driven Selective Scan 2D mechanisms, enabling dynamic task adaptation through clinically informed optimization. FUSE-RAG (Few-shot Universal Segmentation with Retrieval-Augmented Generation) represents the culmination of this progression, achieving uni¬versal adaptation through a Retrieval-Augmented Generation (RAG) mechanism spe¬cifcally designed for medical imaging. This framework integrates ROI-aware retrieval mechanisms that embed expert anatomical knowledge into foundation model representa¬tions, demonstrating substantial Dice coefcient improvements of 10.26 % and 8.86 % in stroke lesion and pneumonia segmentation across entirely unseen anatomical domains.»--(Extrait du résumé)
| Type de document: | Thèse (Thèse) |
|---|---|
| Directeur de mémoire/thèse: | Saïd Allili, Mohand |
| Départements et école, unités de recherche et services: | Informatique et ingénierie |
| Date de dépôt: | 10 avr. 2026 17:29 |
| Dernière modification: | 10 avr. 2026 17:29 |
| URI: | https://di.uqo.ca/id/eprint/1916 |
Gestion Actions (Identification requise)
![]() |
Dernière vérification avant le dépôt |

Statistiques de téléchargement
Statistiques de téléchargement