IA et santé des femmes : ce que révèlent 13 études sur son impact clinique (revue de littérature)

Publié le mercredi 17 juin 2026 à 12h00

Femtech IA

Les résultats issus de ces 13 études et essais cliniques montrent que l'intelligence artificielle apporte des bénéfices mesurables en santé des femmes : jusqu'à 29 % de cancers du sein détectés en plus, dépistage fiabilisé des cancers du col et de l'ovaire, anticipation des complications de grossesse et réduction des errances diagnostiques, sous réserve de valider ses biais.

Un corpus de 13 études (2017–2026) sur l’IA et la santé des femmes

La santé des femmes reste un champ historiquement sous-étudié : sous-représentation dans les essais cliniques, errances diagnostiques prolongées, symptômes considérés comme « atypiques » par rapport à une norme masculine. L’irruption de l’IA en imagerie, en biologie et en obstétrique impose une évaluation rigoureuse de ses bénéfices réels comme de ses angles morts. Cet article synthétise et analyse les résultats de treize travaux publiés entre 2017 et 2026 — essais contrôlés randomisés, études de validation, revues systématiques et études d’équité algorithmique hébergés sur PubMed/PMC ou publiés dans The Lancet, Nature Medicine, Nature Communications, npj Digital Medicine et Journal of Affective Disorders. Menés par des équipes internationales, ces travaux visent à mesurer l’impact clinique réel de l’IA sur le dépistage, le diagnostic et la prise en charge spécifiques aux femmes.

Les études retenues couvrent trois thématiques structurantes :

  • L’impact de l’IA d’imagerie et de cytologie sur le dépistage précoce des cancers féminins (sein, col de l’utérus, ovaire) ;
  • Le rôle des modèles prédictifs et de l’analyse d’images en santé reproductive et maternelle (prééclampsie, endométriose, FIV, SOPK, diabète gestationnel, dépression du post-partum) ;
  • Les limites : absence de supériorité démontrée dans des essais randomisés, biais de genre et d’ethnie, nécessité d’une supervision humaine.

Jusqu’à 29 % de cancers du sein détectés en plus grâce à l’IA :

Le bénéfice le plus solidement établi concerne le dépistage organisé du cancer du sein. L’essai suédois MASAI (Gommers, Hernström, Josefsson et al., The Lancet, 2026 ; 407:505-514) est le premier essai contrôlé randomisé d’envergure sur l’IA en dépistage du cancer. Sur près de 105 934 femmes randomisées 1:1, la lecture mammographique assistée par IA (logiciel Transpara) a entraîné une augmentation de 29 % de la détection des cancers sans hausse des faux positifs (analyse 2025), une réduction de 44 % de la charge de lecture des radiologues (résultats intermédiaires 2023) et une sensibilité de 80,5 % contre 73,8 % à spécificité identique (98,5 %). Surtout, sur le critère le plus exigeant – les cancers d’intervalle survenant entre deux dépistages -, l’IA s’est révélée non-inférieure avec un taux réduit de 12 % (1,55 contre 1,76 pour 1 000), et 27 % de cancers agressifs (non-luminal A) en moins. L’IA y agit comme outil de triage et d’aide à la détection, pas en remplacement du radiologue.

Le même principe se vérifie pour le col de l’utérus. Le système AICCS (Wang et al., Nature Communications, 2024 ; PMC11111770), validé sur 16 056 participantes à partir de données rétrospectives, prospectives et d’un essai observationnel randomisé, atteint une AUC de 0,947, une sensibilité de 0,946 et une spécificité de 0,890 pour le classement des grades cytologiques. L’intérêt est particulièrement net dans les régions à faibles ressources, où la pénurie de cytopathologistes et de colposcopistes constitue un frein majeur à l’élimination du cancer du col.

Pour le cancer de l’ovaire, qui est l’un des cancers gynécologiques au pronostic souvent sombre faute de diagnostic précoce, un modèle d’apprentissage profond appliqué aux masses annexielles classées O-RADS catégorie 4 (étude multicentrique sur 3 centres, 2024 ; PMC11233367) distingue tumeurs bénignes et malignes avec une AUC de 0,95 sur le jeu de test (sensibilité 0,925, spécificité 0,955). Une étude diagnostique multicentrique rétrospective chinoise de plus grande ampleur a par ailleurs montré qu’un réseau de neurones convolutifs atteignait une AUC de 0,911 en validation interne (0,87 et 0,83 en validation externe) et surpassait ou égalait 35 radiologistes, tout en améliorant la précision diagnostique de praticiens moins expérimentés.

L’IA qui anticipe les complications de la grossesse et raccourcit les errances diagnostiques :

En obstétrique, l’IA déplace la logique du réactif vers le prédictif. Un modèle d’apprentissage automatique fondé sur les trajectoires de grossesse issues de dossiers médicaux électroniques de routine (Communications Medicine, 2022 ; PMC9170686) prédit la prééclampsie avec une AUC de 0,92 à 37 semaines (0,82 en intrapartum, 0,89 en post-partum), avec des performances reproduites dans deux cohortes indépendantes et supérieures à la pratique clinique actuelle. Au-delà des facteurs connus (tension artérielle, poids, âge maternel), le modèle a identifié des marqueurs candidats issus de la numération sanguine.

Le diabète gestationnel, habituellement diagnostiqué entre 24 et 28 semaines, peut être anticipé dès le premier trimestre : un modèle XGBoost entraîné sur deux cohortes chinoises (4 799 et 2 795 grossesses ; PMID 37477677) atteint une AUC de 0,99 en fin de premier trimestre en interne et conserve une performance modérée (AUC 0,83) en validation externe, l’IMC pré-grossesse, la glycémie à jeun et l’HbA1c ressortant comme facteurs prédictifs majeurs. L’écart entre performance interne et externe illustre la prudence nécessaire avant tout déploiement.

La dépression du post-partum, qui touche 10 à 15 % des accouchées, se prête également à la prédiction précoce. Un modèle développé sur dossiers médicaux électroniques (Zhang et al., Journal of Affective Disorders, 2020) atteint une AUC de 0,937 en développement et de 0,886 en validation sur une large cohorte multisite (plus de 53 000 femmes), permettant un repérage objectif des femmes à risque avant l’apparition des symptômes, parfois dès avant la grossesse.

Pour l’endométriose, maladie touchant environ une femme sur dix et marquée par des délais diagnostiques de 6 à 12 ans, une revue de cadrage publiée dans npj Digital Medicine (2022 ; PMC9352729) a analysé 36 études et conclut que les modèles d’IA – imagerie échographique, biomarqueurs, données cliniques – peuvent atteindre des précisions diagnostiques supérieures aux outils conventionnels, ouvrant la voie à un dépistage non invasif plus précoce.

En assistance médicale à la procréation, une revue systématique (Human Reproduction Open, 2023 ; PMC10426717) montre que, lorsqu’elle combine images time-lapse et données cliniques, l’IA prédit l’issue d’un transfert d’embryon avec une précision médiane de 81,5 % contre 51 % pour les embryologistes. Enfin, un modèle de détection du syndrome des ovaires polykystiques par échographie pelvienne (Cureus, 2024 ; PMID 39171041) rapporte une précision proche de 100 % sur un jeu de 1 932 images, un résultat prometteur mais issu d’une base publique limitée, que les auteurs eux-mêmes demandent de valider sur des cohortes cliniques réelles.

Plusieurs limites à souligner : la supériorité de l’IA n’est pas acquise, et les biais menacent l’équité

La littérature met en garde contre l’enthousiasme. Deux essais contrôlés randomisés de grande ampleur n’ont pas démontré de bénéfice clinique de l’IA. En FIV, l’essai en double aveugle d’Illingworth et al. (Nature Medicine, 2024 ; PMC11564097), mené sur 1 066 patientes dans 14 cliniques d’Australie et d’Europe, a donné un taux de grossesse clinique de 46,5 % avec l’IA (iDAScore) contre 48,2 % avec la sélection morphologique manuelle (différence −1,7 % ; p = 0,62) : aucune supériorité. En salle de naissance, l’essai INFANT (The Lancet, 2017 ; 389:1719-1729 ; PMC5413601), conduit sur 47 062 femmes, a montré que l’interprétation informatisée du rythme cardiaque fœtal (cardiotocographie) n’améliore pas les issues néonatales : taux de mauvais pronostic identique (0,7 % contre 0,7 % ; risque relatif ajusté 1,01), sans différence non plus dans le développement à deux ans. Une bonne performance « en laboratoire » ne garantit donc pas un gain pour les patientes.

Plus critique encore, deux études documentent des biais qui frappent spécifiquement les femmes. Une analyse d’équité (Celeste et al., npj Digital Medicine, 2023 ; PMID 37978250), première à évaluer l’équité d’outils d’IA sur une pathologie féminine, a testé quatre modèles de diagnostic de la vaginose bactérienne sur 400 femmes (100 par groupe ethnique). Les modèles se sont révélés les moins performants pour les femmes hispaniques (faux positifs) et asiatiques (faux négatifs), et les plus fiables pour les femmes blanches. Ce constat rejoint une étude majeure sur la radiographie thoracique (Seyyed-Kalantari et al., Nature Medicine, 2021 ; PMC8674135) qui identifie le sous-diagnostic le plus élevé chez les patientes jeunes, et davantage encore aux intersections (femmes hispaniques). Le mécanisme est connu : des modèles majoritairement entraînés sur des populations masculines peinent à reconnaître des présentations cliniques féminines, faisant courir le risque que l’IA reproduise – à grande échelle – les inégalités que la médecine s’efforce de corriger.

Tableau comparatif synthétique des 13 études :

Réf. Population / Domaine Méthodologie Résultats chiffrés clés Conclusion principale
The Lancet, 2026 ; 407:505-514 (MASAI) 105 934 femmes (dépistage du sein) Essai contrôlé randomisé, non-infériorité +29 % de détection ; −12 % de cancers d’intervalle ; −44 % de charge de lecture ; sensibilité 80,5 % vs 73,8 % L’IA en triage améliore la détection précoce sans hausse des faux positifs, sans remplacer le radiologue.
Nature Communications, 2024 ; PMC11111770 (AICCS) 16 056 participantes (col de l’utérus) Validation multicentrique (rétro/prospective + essai) AUC 0,947 ; sensibilité 0,946 ; spécificité 0,890 La cytologie assistée par IA fiabilise le classement des lésions cervicales.
J. Cancer Res. Clin. Oncol., 2024 ; PMC11233367 519 patientes (masses ovariennes O-RADS 4) Étude multicentrique (3 centres), deep learning AUC 0,95 (test) ; sensibilité 0,925 ; spécificité 0,955 L’IA distingue tumeurs bénignes et malignes dans les cas annexiels ambigus.
Communications Medicine, 2022 ; PMC9170686 Femmes enceintes (prééclampsie) Modèle ML sur dossiers électroniques, 2 cohortes AUC 0,92 à 37 SA ; 0,82 intrapartum ; 0,89 post-partum La modélisation des trajectoires de grossesse anticipe la prééclampsie mieux que la pratique courante.
PMID 37477677, 2023 7 594 grossesses (diabète gestationnel) Modèle ML (XGBoost), 2 cohortes AUC 0,99 (fin du 1er trimestre, interne) ; 0,83 en validation externe L’IA permet un dépistage précoce du diabète gestationnel, à valider en externe.
J. Affective Disorders, 2020 (Zhang et al.) > 53 000 femmes (dépression du post-partum) Modèle ML sur dossiers électroniques AUC 0,937 (développement) ; 0,886 (validation) Le risque de dépression du post-partum peut être anticipé, parfois avant la grossesse.
npj Digital Medicine, 2022 ; PMC9352729 Endométriose (1 femme sur 10) Revue de cadrage (36 études) Délais diagnostiques de 6 à 12 ans ; précision IA supérieure aux outils conventionnels L’IA peut réduire l’errance diagnostique par un dépistage non invasif.
Human Reproduction Open, 2023 ; PMC10426717 FIV / sélection d’embryons Revue systématique (20 études) Précision médiane 81,5 % (IA images+clinique) vs 51 % (embryologistes) L’IA peut standardiser le classement embryonnaire et appuyer la décision.
Cureus, 2024 ; PMID 39171041 SOPK (échographie pelvienne) Développement / validation technique Précision ≈ 100 % sur 1 932 images (base publique) Résultat prometteur mais à valider sur cohortes cliniques réelles.
Nature Medicine, 2024 ; PMC11564097 1 066 patientes (FIV, 14 cliniques) Essai contrôlé randomisé, double aveugle Grossesse clinique 46,5 % (IA) vs 48,2 % (manuel) ; p = 0,62 L’IA n’a pas démontré de supériorité clinique sur la sélection morphologique.
The Lancet, 2017 ; 389:1719-1729 (INFANT) ; PMC5413601 47 062 femmes (monitoring fœtal) Essai contrôlé randomisé Mauvais pronostic néonatal 0,7 % vs 0,7 % ; RR ajusté 1,01 L’interprétation informatisée de la cardiotocographie n’améliore pas les issues.
npj Digital Medicine, 2023 ; PMID 37978250 400 femmes (vaginose bactérienne) Étude d’équité (4 modèles ML) Performance moindre pour les femmes hispaniques et asiatiques Les biais ethniques menacent l’équité des outils de santé féminine.
Nature Medicine, 2021 ; PMC8674135 Populations sous-desservies (imagerie) Étude d’équité algorithmique multi-bases Sous-diagnostic maximal chez les patientes jeunes et aux intersections Sans correction, l’IA peut amplifier les inégalités de diagnostic.

Les enseignements de l’IA en santé des femmes s’articulent autour de 3 piliers

Il ressort de la concordance de ces 13 études que la valeur de l’intelligence artificielle en santé des femmes repose sur trois piliers fondamentaux :

L’anticipation prédictive plutôt que réactive : qu’il s’agisse de repérer un cancer d’intervalle (MASAI), d’anticiper une prééclampsie (PMC9170686), un diabète gestationnel (PMID 37477677) ou une dépression du post-partum (Zhang et al., 2020), et de raccourcir l’errance de l’endométriose (PMC9352729), l’IA permet d’intervenir plus tôt, là où les femmes subissent historiquement les délais diagnostiques les plus longs.

La preuve clinique avant l’adoption : les essais randomisés en FIV (PMC11564097) et en monitoring fœtal (INFANT, PMC5413601) rappellent qu’une haute performance technique – AUC élevée, concordance avec les experts – ne garantit pas un bénéfice clinique. Seules des données prospectives, randomisées et validées en conditions réelles, idéalement avec validation externe (comme le souligne l’écart de performance du modèle de diabète gestationnel), justifient un déploiement.

La lutte contre les biais et la supervision humaine : les modèles d’IA doivent être entraînés et audités sur des données représentatives des femmes – toutes origines confondues – pour éviter qu’ils ne reproduisent le sous-diagnostic féminin (PMC8674135) ou des disparités ethniques (PMID 37978250). La collecte de données désagrégées par sexe et l’audit algorithmique externe sont des conditions de sécurité, non des options. L’IA doit libérer du temps clinique pour la relation de soin, pas s’y substituer.

Bibliographie

  1. Gommers J, Hernström V, Josefsson V, et al. Interval cancer, sensitivity, and specificity comparing AI-supported mammography screening with standard double reading without AI in the MASAI study: a randomised, controlled, non-inferiority, single-blinded, population-based, screening-accuracy trial. The Lancet. 2026;407:505-514.
  2. Wang J, et al. Artificial intelligence enables precision diagnosis of cervical cytology grades and cervical cancer. Nature Communications. 2024. PMC11111770.
  3. Developing a deep learning model for predicting ovarian cancer in O-RADS US Category 4 lesions: a multicenter study. Journal of Cancer Research and Clinical Oncology. 2024. PMC11233367.
  4. Improving preeclampsia risk prediction by modeling pregnancy trajectories from routinely collected electronic medical record data. Communications Medicine. 2022. PMC9170686.
  5. Prediction of gestational diabetes mellitus at the first trimester: machine-learning algorithms. 2023. PMID 37477677.
  6. Zhang W, et al. Development and validation of a machine learning algorithm for predicting the risk of postpartum depression among pregnant women. Journal of Affective Disorders. 2020.
  7. Clinical use of artificial intelligence in endometriosis: a scoping review. npj Digital Medicine. 2022. PMC9352729.
  8. Embryo selection through artificial intelligence versus embryologists: a systematic review. Human Reproduction Open. 2023. PMC10426717.
  9. Development of a Machine Learning-Based Model for Accurate Detection and Classification of Polycystic Ovary Syndrome on Pelvic Ultrasound. Cureus. 2024. PMID 39171041.
  10. Illingworth PJ, Venetis C, Gardner DK, et al. Deep learning versus manual morphology-based embryo selection in IVF: a randomized, double-blind noninferiority trial. Nature Medicine. 2024;30(11):3114-3120. PMC11564097.
  11. The INFANT Collaborative Group. Computerised interpretation of fetal heart rate during labour (INFANT): a randomised controlled trial. The Lancet. 2017;389:1719-1729. PMC5413601.
  12. Celeste C, Ming D, Broce J, et al. Ethnic disparity in diagnosing asymptomatic bacterial vaginosis using machine learning. npj Digital Medicine. 2023;6:211. PMID 37978250.
  13. Seyyed-Kalantari L, Zhang H, McDermott MBA, Chen IY, Ghassemi M. Underdiagnosis bias of artificial intelligence algorithms applied to chest radiographs in under-served patient populations. Nature Medicine. 2021. PMC8674135.
FermerPlease login

No account yet? Register

membres-icon

Derniers membres

Sixte inscrit il y a 1 mois et 1 semaine
Adam inscrit il y a 3 mois
Julien inscrit il y a 3 mois et 1 semaine
Matthieu inscrit il y a 3 mois et 2 semaines
Welha inscrit il y a 4 mois et 2 semaines
charles inscrit il y a 4 mois et 2 semaines
Ella inscrit il y a 4 mois et 2 semaines
Jenna inscrit il y a 4 mois et 2 semaines
confiance-icon

Ils nous font confiance

Jean François Pomerol
CEO

« Tribun Health est l’un des leaders en matière de solutions de pathologie numérique pour les établissements de santé publics et privés et l’environnement / organisations pharmaceutiques. Le décryptage de l’actualité numérique santé au sein de l’écosystème est un relais majeur pour comprendre, accompagner et développer nos activités tant au niveau institutionnel qu’au niveau des établissements (réseau des DG / DSI / CME

Dr Charlotte Garret
Directrice Médicale

« L'hebdo Health&Tech est un excellent support d'informations en termes d'actualités dans le domaine de la santé numérique, de l'IA, de la veille réglementaire... L'hebdo s'intéresse aux actualités françaises mais aussi internationales, ce qui permet d'avoir une vision globale des innovations en santé dans les domaines du digital et du numérique. Cela nous permet, au sein du LAB innovation chez Santéclair, d'être toujours informés des nouveaux acteurs du marché et des actualités dans ce domaine en perpétuel évolution ».

Aurélien Pécoul
Acting Director & open innovation manager

« En tant qu'acteur clé de l'industrie pharmaceutique, nous avons eu le privilège de collaborer avec Care Insight pour nos besoins en veille stratégique et en conseil dans le domaine de la santé numérique. Leur expertise, leur engagement et leur intégration au sein de l'écosystème de la santé numérique sont des atouts essentiels pour nous permettre d'accéder à une information de qualité. Leur capacité à fournir des panoramas détaillés, des benchmarks précis des solutions numériques et à définir des axes d'opportunités nous permet de mieux comprendre le paysage numérique de la santé en constante évolution et de formuler des stratégies de développement pertinentes. »

Arnaud Houette
CEO

« Extens est en France l’un des fonds majeurs d'investissement dédié aux éditeurs de logiciels de santé. A ce titre, Care Insight nous permet, par le service de veille HealthTech Intelligence, de comprendre les segments en évolution et accompagner nos stratégies d’investissement ciblées. Une très bonne source d’information fiable et pertinente ».

Pascal Dussert
Directeur Europe sale

“Care Insight est fédérateur d’innovations permettant d’accélérer l’émergence de projets d’envergure en s’appuyant sur son vaste réseau d’experts cliniques, institutionnels et industriels »

events-icon

Événements

Revivez les meilleurs moments !

Retrouver en image le Health&Tech Summit 2023 consacré aux cas d’usages concrets de l’IA et de la Data en Santé.