IA et santé des femmes : ce que révèlent 13 études sur son impact clinique (revue de littérature)
Publié le mercredi 17 juin 2026 à 12h00
Femtech IALes résultats issus de ces 13 études et essais cliniques montrent que l'intelligence artificielle apporte des bénéfices mesurables en santé des femmes : jusqu'à 29 % de cancers du sein détectés en plus, dépistage fiabilisé des cancers du col et de l'ovaire, anticipation des complications de grossesse et réduction des errances diagnostiques, sous réserve de valider ses biais.
Un corpus de 13 études (2017–2026) sur l’IA et la santé des femmes
La santé des femmes reste un champ historiquement sous-étudié : sous-représentation dans les essais cliniques, errances diagnostiques prolongées, symptômes considérés comme « atypiques » par rapport à une norme masculine. L’irruption de l’IA en imagerie, en biologie et en obstétrique impose une évaluation rigoureuse de ses bénéfices réels comme de ses angles morts. Cet article synthétise et analyse les résultats de treize travaux publiés entre 2017 et 2026 — essais contrôlés randomisés, études de validation, revues systématiques et études d’équité algorithmique hébergés sur PubMed/PMC ou publiés dans The Lancet, Nature Medicine, Nature Communications, npj Digital Medicine et Journal of Affective Disorders. Menés par des équipes internationales, ces travaux visent à mesurer l’impact clinique réel de l’IA sur le dépistage, le diagnostic et la prise en charge spécifiques aux femmes.
Les études retenues couvrent trois thématiques structurantes :
- L’impact de l’IA d’imagerie et de cytologie sur le dépistage précoce des cancers féminins (sein, col de l’utérus, ovaire) ;
- Le rôle des modèles prédictifs et de l’analyse d’images en santé reproductive et maternelle (prééclampsie, endométriose, FIV, SOPK, diabète gestationnel, dépression du post-partum) ;
- Les limites : absence de supériorité démontrée dans des essais randomisés, biais de genre et d’ethnie, nécessité d’une supervision humaine.
Jusqu’à 29 % de cancers du sein détectés en plus grâce à l’IA :
Le bénéfice le plus solidement établi concerne le dépistage organisé du cancer du sein. L’essai suédois MASAI (Gommers, Hernström, Josefsson et al., The Lancet, 2026 ; 407:505-514) est le premier essai contrôlé randomisé d’envergure sur l’IA en dépistage du cancer. Sur près de 105 934 femmes randomisées 1:1, la lecture mammographique assistée par IA (logiciel Transpara) a entraîné une augmentation de 29 % de la détection des cancers sans hausse des faux positifs (analyse 2025), une réduction de 44 % de la charge de lecture des radiologues (résultats intermédiaires 2023) et une sensibilité de 80,5 % contre 73,8 % à spécificité identique (98,5 %). Surtout, sur le critère le plus exigeant – les cancers d’intervalle survenant entre deux dépistages -, l’IA s’est révélée non-inférieure avec un taux réduit de 12 % (1,55 contre 1,76 pour 1 000), et 27 % de cancers agressifs (non-luminal A) en moins. L’IA y agit comme outil de triage et d’aide à la détection, pas en remplacement du radiologue.
Le même principe se vérifie pour le col de l’utérus. Le système AICCS (Wang et al., Nature Communications, 2024 ; PMC11111770), validé sur 16 056 participantes à partir de données rétrospectives, prospectives et d’un essai observationnel randomisé, atteint une AUC de 0,947, une sensibilité de 0,946 et une spécificité de 0,890 pour le classement des grades cytologiques. L’intérêt est particulièrement net dans les régions à faibles ressources, où la pénurie de cytopathologistes et de colposcopistes constitue un frein majeur à l’élimination du cancer du col.
Pour le cancer de l’ovaire, qui est l’un des cancers gynécologiques au pronostic souvent sombre faute de diagnostic précoce, un modèle d’apprentissage profond appliqué aux masses annexielles classées O-RADS catégorie 4 (étude multicentrique sur 3 centres, 2024 ; PMC11233367) distingue tumeurs bénignes et malignes avec une AUC de 0,95 sur le jeu de test (sensibilité 0,925, spécificité 0,955). Une étude diagnostique multicentrique rétrospective chinoise de plus grande ampleur a par ailleurs montré qu’un réseau de neurones convolutifs atteignait une AUC de 0,911 en validation interne (0,87 et 0,83 en validation externe) et surpassait ou égalait 35 radiologistes, tout en améliorant la précision diagnostique de praticiens moins expérimentés.
L’IA qui anticipe les complications de la grossesse et raccourcit les errances diagnostiques :
En obstétrique, l’IA déplace la logique du réactif vers le prédictif. Un modèle d’apprentissage automatique fondé sur les trajectoires de grossesse issues de dossiers médicaux électroniques de routine (Communications Medicine, 2022 ; PMC9170686) prédit la prééclampsie avec une AUC de 0,92 à 37 semaines (0,82 en intrapartum, 0,89 en post-partum), avec des performances reproduites dans deux cohortes indépendantes et supérieures à la pratique clinique actuelle. Au-delà des facteurs connus (tension artérielle, poids, âge maternel), le modèle a identifié des marqueurs candidats issus de la numération sanguine.
Le diabète gestationnel, habituellement diagnostiqué entre 24 et 28 semaines, peut être anticipé dès le premier trimestre : un modèle XGBoost entraîné sur deux cohortes chinoises (4 799 et 2 795 grossesses ; PMID 37477677) atteint une AUC de 0,99 en fin de premier trimestre en interne et conserve une performance modérée (AUC 0,83) en validation externe, l’IMC pré-grossesse, la glycémie à jeun et l’HbA1c ressortant comme facteurs prédictifs majeurs. L’écart entre performance interne et externe illustre la prudence nécessaire avant tout déploiement.
La dépression du post-partum, qui touche 10 à 15 % des accouchées, se prête également à la prédiction précoce. Un modèle développé sur dossiers médicaux électroniques (Zhang et al., Journal of Affective Disorders, 2020) atteint une AUC de 0,937 en développement et de 0,886 en validation sur une large cohorte multisite (plus de 53 000 femmes), permettant un repérage objectif des femmes à risque avant l’apparition des symptômes, parfois dès avant la grossesse.
Pour l’endométriose, maladie touchant environ une femme sur dix et marquée par des délais diagnostiques de 6 à 12 ans, une revue de cadrage publiée dans npj Digital Medicine (2022 ; PMC9352729) a analysé 36 études et conclut que les modèles d’IA – imagerie échographique, biomarqueurs, données cliniques – peuvent atteindre des précisions diagnostiques supérieures aux outils conventionnels, ouvrant la voie à un dépistage non invasif plus précoce.
En assistance médicale à la procréation, une revue systématique (Human Reproduction Open, 2023 ; PMC10426717) montre que, lorsqu’elle combine images time-lapse et données cliniques, l’IA prédit l’issue d’un transfert d’embryon avec une précision médiane de 81,5 % contre 51 % pour les embryologistes. Enfin, un modèle de détection du syndrome des ovaires polykystiques par échographie pelvienne (Cureus, 2024 ; PMID 39171041) rapporte une précision proche de 100 % sur un jeu de 1 932 images, un résultat prometteur mais issu d’une base publique limitée, que les auteurs eux-mêmes demandent de valider sur des cohortes cliniques réelles.
Plusieurs limites à souligner : la supériorité de l’IA n’est pas acquise, et les biais menacent l’équité
La littérature met en garde contre l’enthousiasme. Deux essais contrôlés randomisés de grande ampleur n’ont pas démontré de bénéfice clinique de l’IA. En FIV, l’essai en double aveugle d’Illingworth et al. (Nature Medicine, 2024 ; PMC11564097), mené sur 1 066 patientes dans 14 cliniques d’Australie et d’Europe, a donné un taux de grossesse clinique de 46,5 % avec l’IA (iDAScore) contre 48,2 % avec la sélection morphologique manuelle (différence −1,7 % ; p = 0,62) : aucune supériorité. En salle de naissance, l’essai INFANT (The Lancet, 2017 ; 389:1719-1729 ; PMC5413601), conduit sur 47 062 femmes, a montré que l’interprétation informatisée du rythme cardiaque fœtal (cardiotocographie) n’améliore pas les issues néonatales : taux de mauvais pronostic identique (0,7 % contre 0,7 % ; risque relatif ajusté 1,01), sans différence non plus dans le développement à deux ans. Une bonne performance « en laboratoire » ne garantit donc pas un gain pour les patientes.
Plus critique encore, deux études documentent des biais qui frappent spécifiquement les femmes. Une analyse d’équité (Celeste et al., npj Digital Medicine, 2023 ; PMID 37978250), première à évaluer l’équité d’outils d’IA sur une pathologie féminine, a testé quatre modèles de diagnostic de la vaginose bactérienne sur 400 femmes (100 par groupe ethnique). Les modèles se sont révélés les moins performants pour les femmes hispaniques (faux positifs) et asiatiques (faux négatifs), et les plus fiables pour les femmes blanches. Ce constat rejoint une étude majeure sur la radiographie thoracique (Seyyed-Kalantari et al., Nature Medicine, 2021 ; PMC8674135) qui identifie le sous-diagnostic le plus élevé chez les patientes jeunes, et davantage encore aux intersections (femmes hispaniques). Le mécanisme est connu : des modèles majoritairement entraînés sur des populations masculines peinent à reconnaître des présentations cliniques féminines, faisant courir le risque que l’IA reproduise – à grande échelle – les inégalités que la médecine s’efforce de corriger.
Tableau comparatif synthétique des 13 études :
| Réf. | Population / Domaine | Méthodologie | Résultats chiffrés clés | Conclusion principale |
|---|---|---|---|---|
| The Lancet, 2026 ; 407:505-514 (MASAI) | 105 934 femmes (dépistage du sein) | Essai contrôlé randomisé, non-infériorité | +29 % de détection ; −12 % de cancers d’intervalle ; −44 % de charge de lecture ; sensibilité 80,5 % vs 73,8 % | L’IA en triage améliore la détection précoce sans hausse des faux positifs, sans remplacer le radiologue. |
| Nature Communications, 2024 ; PMC11111770 (AICCS) | 16 056 participantes (col de l’utérus) | Validation multicentrique (rétro/prospective + essai) | AUC 0,947 ; sensibilité 0,946 ; spécificité 0,890 | La cytologie assistée par IA fiabilise le classement des lésions cervicales. |
| J. Cancer Res. Clin. Oncol., 2024 ; PMC11233367 | 519 patientes (masses ovariennes O-RADS 4) | Étude multicentrique (3 centres), deep learning | AUC 0,95 (test) ; sensibilité 0,925 ; spécificité 0,955 | L’IA distingue tumeurs bénignes et malignes dans les cas annexiels ambigus. |
| Communications Medicine, 2022 ; PMC9170686 | Femmes enceintes (prééclampsie) | Modèle ML sur dossiers électroniques, 2 cohortes | AUC 0,92 à 37 SA ; 0,82 intrapartum ; 0,89 post-partum | La modélisation des trajectoires de grossesse anticipe la prééclampsie mieux que la pratique courante. |
| PMID 37477677, 2023 | 7 594 grossesses (diabète gestationnel) | Modèle ML (XGBoost), 2 cohortes | AUC 0,99 (fin du 1er trimestre, interne) ; 0,83 en validation externe | L’IA permet un dépistage précoce du diabète gestationnel, à valider en externe. |
| J. Affective Disorders, 2020 (Zhang et al.) | > 53 000 femmes (dépression du post-partum) | Modèle ML sur dossiers électroniques | AUC 0,937 (développement) ; 0,886 (validation) | Le risque de dépression du post-partum peut être anticipé, parfois avant la grossesse. |
| npj Digital Medicine, 2022 ; PMC9352729 | Endométriose (1 femme sur 10) | Revue de cadrage (36 études) | Délais diagnostiques de 6 à 12 ans ; précision IA supérieure aux outils conventionnels | L’IA peut réduire l’errance diagnostique par un dépistage non invasif. |
| Human Reproduction Open, 2023 ; PMC10426717 | FIV / sélection d’embryons | Revue systématique (20 études) | Précision médiane 81,5 % (IA images+clinique) vs 51 % (embryologistes) | L’IA peut standardiser le classement embryonnaire et appuyer la décision. |
| Cureus, 2024 ; PMID 39171041 | SOPK (échographie pelvienne) | Développement / validation technique | Précision ≈ 100 % sur 1 932 images (base publique) | Résultat prometteur mais à valider sur cohortes cliniques réelles. |
| Nature Medicine, 2024 ; PMC11564097 | 1 066 patientes (FIV, 14 cliniques) | Essai contrôlé randomisé, double aveugle | Grossesse clinique 46,5 % (IA) vs 48,2 % (manuel) ; p = 0,62 | L’IA n’a pas démontré de supériorité clinique sur la sélection morphologique. |
| The Lancet, 2017 ; 389:1719-1729 (INFANT) ; PMC5413601 | 47 062 femmes (monitoring fœtal) | Essai contrôlé randomisé | Mauvais pronostic néonatal 0,7 % vs 0,7 % ; RR ajusté 1,01 | L’interprétation informatisée de la cardiotocographie n’améliore pas les issues. |
| npj Digital Medicine, 2023 ; PMID 37978250 | 400 femmes (vaginose bactérienne) | Étude d’équité (4 modèles ML) | Performance moindre pour les femmes hispaniques et asiatiques | Les biais ethniques menacent l’équité des outils de santé féminine. |
| Nature Medicine, 2021 ; PMC8674135 | Populations sous-desservies (imagerie) | Étude d’équité algorithmique multi-bases | Sous-diagnostic maximal chez les patientes jeunes et aux intersections | Sans correction, l’IA peut amplifier les inégalités de diagnostic. |
Les enseignements de l’IA en santé des femmes s’articulent autour de 3 piliers
Il ressort de la concordance de ces 13 études que la valeur de l’intelligence artificielle en santé des femmes repose sur trois piliers fondamentaux :
L’anticipation prédictive plutôt que réactive : qu’il s’agisse de repérer un cancer d’intervalle (MASAI), d’anticiper une prééclampsie (PMC9170686), un diabète gestationnel (PMID 37477677) ou une dépression du post-partum (Zhang et al., 2020), et de raccourcir l’errance de l’endométriose (PMC9352729), l’IA permet d’intervenir plus tôt, là où les femmes subissent historiquement les délais diagnostiques les plus longs.
La preuve clinique avant l’adoption : les essais randomisés en FIV (PMC11564097) et en monitoring fœtal (INFANT, PMC5413601) rappellent qu’une haute performance technique – AUC élevée, concordance avec les experts – ne garantit pas un bénéfice clinique. Seules des données prospectives, randomisées et validées en conditions réelles, idéalement avec validation externe (comme le souligne l’écart de performance du modèle de diabète gestationnel), justifient un déploiement.
La lutte contre les biais et la supervision humaine : les modèles d’IA doivent être entraînés et audités sur des données représentatives des femmes – toutes origines confondues – pour éviter qu’ils ne reproduisent le sous-diagnostic féminin (PMC8674135) ou des disparités ethniques (PMID 37978250). La collecte de données désagrégées par sexe et l’audit algorithmique externe sont des conditions de sécurité, non des options. L’IA doit libérer du temps clinique pour la relation de soin, pas s’y substituer.
Bibliographie
- Gommers J, Hernström V, Josefsson V, et al. Interval cancer, sensitivity, and specificity comparing AI-supported mammography screening with standard double reading without AI in the MASAI study: a randomised, controlled, non-inferiority, single-blinded, population-based, screening-accuracy trial. The Lancet. 2026;407:505-514.
- Wang J, et al. Artificial intelligence enables precision diagnosis of cervical cytology grades and cervical cancer. Nature Communications. 2024. PMC11111770.
- Developing a deep learning model for predicting ovarian cancer in O-RADS US Category 4 lesions: a multicenter study. Journal of Cancer Research and Clinical Oncology. 2024. PMC11233367.
- Improving preeclampsia risk prediction by modeling pregnancy trajectories from routinely collected electronic medical record data. Communications Medicine. 2022. PMC9170686.
- Prediction of gestational diabetes mellitus at the first trimester: machine-learning algorithms. 2023. PMID 37477677.
- Zhang W, et al. Development and validation of a machine learning algorithm for predicting the risk of postpartum depression among pregnant women. Journal of Affective Disorders. 2020.
- Clinical use of artificial intelligence in endometriosis: a scoping review. npj Digital Medicine. 2022. PMC9352729.
- Embryo selection through artificial intelligence versus embryologists: a systematic review. Human Reproduction Open. 2023. PMC10426717.
- Development of a Machine Learning-Based Model for Accurate Detection and Classification of Polycystic Ovary Syndrome on Pelvic Ultrasound. Cureus. 2024. PMID 39171041.
- Illingworth PJ, Venetis C, Gardner DK, et al. Deep learning versus manual morphology-based embryo selection in IVF: a randomized, double-blind noninferiority trial. Nature Medicine. 2024;30(11):3114-3120. PMC11564097.
- The INFANT Collaborative Group. Computerised interpretation of fetal heart rate during labour (INFANT): a randomised controlled trial. The Lancet. 2017;389:1719-1729. PMC5413601.
- Celeste C, Ming D, Broce J, et al. Ethnic disparity in diagnosing asymptomatic bacterial vaginosis using machine learning. npj Digital Medicine. 2023;6:211. PMID 37978250.
- Seyyed-Kalantari L, Zhang H, McDermott MBA, Chen IY, Ghassemi M. Underdiagnosis bias of artificial intelligence algorithms applied to chest radiographs in under-served patient populations. Nature Medicine. 2021. PMC8674135.