Etude : un outil d’IA capable d’atténuer les biais dans les ensembles de données (JMIR)

Publié le jeudi 11 septembre 2025 à 10h50

Data IA

Une équipe de chercheurs de l’Icahn School of Medicine at Mount Sinai a développé un outil qui aide à détecter et à corriger les biais dans les ensembles de données de santé. Les résultats de leur étude*, publiée le 4 septembre dans le Journal of Medical Internet Research, révèlent qu’AEquity identifie la cause précise des biais et permet de les réduire d’environ 80 %.

Détecter les biais au niveau des data

Les algorithmes d’IA en santé sont souvent accusés de reproduire ou d’amplifier des biais discriminatoires (par exemple selon la race, le sexe ou l’âge). En effet, certains groupes démographiques peuvent être sous-représentés, et certaines maladies peuvent se manifester différemment ou être surdiagnostiquées selon les populations. L’existence de ces biais freinent l’utilisation en clinique des outils d’IA. Il existe des outils pour réduire ces biais, mais ils agissent surtout au niveau des modèles, pas des données.

AEquity identifie trois biais fréquents avant l’entraînement des modèles d’IA en santé

Sous-échantillonnage, labels inadaptés, groupes complexes

C’est pourquoi des chercheurs de l’Icahn School of Medicine at Mount Sinai ont développé AEquity, un outil qui aide à détecter et à corriger les biais dans les ensembles de données de santé avant leur utilisation dans l’entraînement de modèles d’intelligence artificielle (IA) et d’apprentissage automatique. Concrètement, les chercheurs l’ont conçu autour d’un principe simple : mesurer la difficulté d’apprentissage des données selon les groupes. Ils commencent par prendre un petit sous-échantillon équilibré des données (par exemple 3 à 10 %). Et en suivant la vitesse à laquelle le modèle apprend pour chaque groupe (ex. hommes vs femmes, Noirs vs Blancs), ils calculent un score appelé. Si un groupe a besoin de beaucoup plus d’exemples pour atteindre le même niveau de performance, cela signale un biais. Ensuite, AEquity parvient à identifier la source du problème :

  • Un mauvais choix de label choisi (mal adapté, comme “coûts de santé”),
  • le sous-échantillonnage (trop peu de données pour un groupe),
  • la complexité d’un groupe (plus hétérogène, donc plus dur à modéliser).

Une fois ce travail effectué, les chercheurs pourraient corriger le dataset avant même d’entraîner l’IA.

L’équipe a ensuite testé AEquity sur différents types de données médicales : images, dossiers de patients et une grande enquête de santé publique (National Health and Nutrition Examination Survey) sur les coûts de santé, en utilisant divers modèles d’apprentissage automatique.

Les résultats de cette étude ont été publiés le le 4 septembre dans le Journal of Medical Internet Research.

Résultats : des biais réduits de 80%

  • Quand on utilisait les coûts comme critère, l’algorithme sous-estimait les besoins des patients noirs. Le bon critère était le nombre de maladies chroniques. Ainsi, la différence entre patients noirs et blancs disparaît quasiment.
  • Sur les radiographies thoraciques, AEquity a permis de réduire les écarts de performance entre patients noirs et blancs de 29 % à 96,5 % selon le diagnostic.
  • Sur les données issues de la National Health and Nutrition Examination Survey, AEquity a révélé un biais de label (le meilleur critère est la mortalité à 5 ans) et un biais de complexité (la combinaison race + mortalité est plus difficile à apprendre).
  • En suivant ses recommandations (bon critère + collecte ciblée de patients noirs), le biais entre patients noirs et blancs a été réduit d’environ 80 %.

Ces résultats suggèrent qu’AEquity pourrait être utile aux développeurs, aux chercheurs et aux autorités de régulation. D’autant qu’il peut as’daptable à un large éventail de modèles d’apprentissage automatique, depuis des approches simples jusqu’aux systèmes avancés qui alimentent les grands modèles de langage. Et il peut s’appliquer à de petits comme à de grands ensembles de données.

« Cette recherche marque une évolution cruciale de notre vision de l’IA en santé : non plus seulement comme outil d’aide à la décision, mais comme moteur d’amélioration de la santé dans toutes les communautés que nous servons », a déclaré le Dr David Reich, président du Mount Sinai Hospital. « En identifiant et en corrigeant les biais au niveau des ensembles de données, nous traitons le problème à la racine avant qu’il n’affecte la prise en charge. C’est ainsi que nous renforçons la confiance des communautés envers l’IA et veillons à ce que les innovations qui en découlent améliorent les résultats pour tous les patients, et pas seulement pour ceux qui sont le mieux représentés dans les données.»

“Une partie de la solution”

Cependant, pour corriger certains biais, AEquity recommande de collecter plus de données dans un groupe spécifique. Or, en pratique, recruter des patients sous-représentés est coûteux et parfois difficile. Et il reste limité à certaines tâches sans fournir d’explication causale.

Le Dr Girish Nadkarni, dernier auteur de l’étude, a d’ailleurs précisé, que de tels outils ne constituaient qu’« une partie de la solution ». Si nous voulons que ces technologies servent réellement tous les patients, nous devons associer les avancées techniques à des changements plus profonds dans la manière dont les données sont collectées, interprétées et appliquées en santé. Tout repose sur la qualité des données, c’est le socle. »

*Detecting, Characterizing, and Mitigating Implicit and Explicit Racial Biases in Health Care Datasets With Subgroup Learnability: Algorithm Development and Validation Study

Gulamali F, Sawant AS, Liharska L, Horowitz C, Chan L, Hofer I, Singh K, Richardson L, Mensah E, Charney A, Reich D, Hu J, Nadkarni G
J Med Internet Res 2025;27:e71757

FermerPlease login

No account yet? Register

membres-icon

Derniers membres

Jennifer inscrit il y a 1 mois
morgane inscrit il y a 1 mois et 2 semaines
Benjamin inscrit il y a 1 mois et 4 semaines
François inscrit il y a 2 mois et 1 semaine
Charles inscrit il y a 2 mois et 1 semaine
Aicha inscrit il y a 3 mois et 2 semaines
Nozha inscrit il y a 4 mois et 3 semaines
Fiona inscrit il y a 4 mois et 3 semaines
confiance-icon

Ils nous font confiance

Jean François Pomerol
CEO

« Tribun Health est l’un des leaders en matière de solutions de pathologie numérique pour les établissements de santé publics et privés et l’environnement / organisations pharmaceutiques. Le décryptage de l’actualité numérique santé au sein de l’écosystème est un relais majeur pour comprendre, accompagner et développer nos activités tant au niveau institutionnel qu’au niveau des établissements (réseau des DG / DSI / CME

Dr Charlotte Garret
Directrice Médicale

« L'hebdo Health&Tech est un excellent support d'informations en termes d'actualités dans le domaine de la santé numérique, de l'IA, de la veille réglementaire... L'hebdo s'intéresse aux actualités françaises mais aussi internationales, ce qui permet d'avoir une vision globale des innovations en santé dans les domaines du digital et du numérique. Cela nous permet, au sein du LAB innovation chez Santéclair, d'être toujours informés des nouveaux acteurs du marché et des actualités dans ce domaine en perpétuel évolution ».

Aurélien Pécoul
Acting Director & open innovation manager

« En tant qu'acteur clé de l'industrie pharmaceutique, nous avons eu le privilège de collaborer avec Care Insight pour nos besoins en veille stratégique et en conseil dans le domaine de la santé numérique. Leur expertise, leur engagement et leur intégration au sein de l'écosystème de la santé numérique sont des atouts essentiels pour nous permettre d'accéder à une information de qualité. Leur capacité à fournir des panoramas détaillés, des benchmarks précis des solutions numériques et à définir des axes d'opportunités nous permet de mieux comprendre le paysage numérique de la santé en constante évolution et de formuler des stratégies de développement pertinentes. »

Arnaud Houette
CEO

« Extens est en France l’un des fonds majeurs d'investissement dédié aux éditeurs de logiciels de santé. A ce titre, Care Insight nous permet, par le service de veille HealthTech Intelligence, de comprendre les segments en évolution et accompagner nos stratégies d’investissement ciblées. Une très bonne source d’information fiable et pertinente ».

Pascal Dussert
Directeur Europe sale

“Care Insight est fédérateur d’innovations permettant d’accélérer l’émergence de projets d’envergure en s’appuyant sur son vaste réseau d’experts cliniques, institutionnels et industriels »

events-icon

Événements

Revivez les meilleurs moments !

Retrouver en image le Health&Tech Summit 2023 consacré aux cas d’usages concrets de l’IA et de la Data en Santé.