Étude : apprendre à douter améliore la fiabilité des IA médicales (BMJ)
Publié le jeudi 26 mars 2026 à 13h59
IA Recherche SoinsFace aux risques d’erreurs des IA médicales, une équipe du MIT propose un nouveau cadre pour les rendre plus “humbles”. Testé sur 200 cas cliniques, ce système améliore la qualité des réponses en incitant l’IA à reconnaître ses limites, poser des questions et nuancer ses recommandations.
Publiés dans BMJ Health & Care Informatics le 23 mars 2026, ces travaux* ouvrent la voie à des IA plus collaboratives avec les soignants.
Une IA médicale peut se tromper… mais avec assurance. Et c’est bien là le problème.
Une recommandation erronée, mais formulée avec aplomb, peut facilement orienter la décision d’un médecin.
Ce biais est déjà documenté. Face à un outil perçu comme performant, les cliniciens ont tendance à faire confiance à la machine, parfois plus qu’à leur propre jugement, même quand leur intuition diverge. Dans des situations d’urgence notamment, certaines études montrent qu’une recommandation affichée avec un haut niveau de confiance est plus souvent suivie… même lorsqu’elle est fausse.
Le problème vient en partie de la conception même des modèles. Aujourd’hui, une IA est entraînée à répondre. Pas à dire qu’elle ne sait pas. Elle ne distingue pas clairement 2 situations pourtant essentielles en médecine : quand il manque des informations et quand les données sont là, mais incertaines. Résultat : les réponses apportées sont propres, structurées… mais parfois inappropriées voire erronées.
Une IA capable d’évaluer son niveau de certitude
Face à ce constat, des chercheurs du MIT ont voulu changer d’approche. Leur objectif n’est plus seulement d’améliorer la performance brute, mais de rendre l’IA capable d’évaluer son propre niveau de certitude et d’adapter sa réponse. Autrement dit, transformer l’outil en véritable partenaire du clinicien. Pour cela, ils n’ont pas développé un nouveau modèle d’IA mais ont conçu une couche supplémentaire, baptisée BODHI, qui vient se greffer sur un système existant pour en modifier le comportement.
Concrètement, le dispositif repose sur une étape intermédiaire, ajoutée avant la réponse. L’IA ne répond plus immédiatement. Elle commence par évaluer son propre niveau de certitude face au cas qui lui est soumis. Elle analyse notamment si les données sont suffisantes, si la situation est complexe ou atypique, ou si plusieurs interprétations sont possibles. Le système distingue alors deux situations clés :
- Un manque d’informations, qui empêche de conclure.
- Une incertitude persistante malgré des données disponibles.
Dans le premier cas, l’IA est incitée à poser des questions ou à demander des éléments complémentaires. Dans le second, elle peut formuler une réponse, mais en signalant explicitement ses limites et les hypothèses alternatives.
Un modèle « humble »
Pour générer de tels comportements, les chercheurs ont intégré ce qu’ils appellent une “matrice d’activation des vertus”. Autrement dit un système qui déclenche différents comportements selon le niveau d’incertitude. Elle repose sur deux principes complémentaires :
- La curiosité, qui pousse le modèle à chercher des informations supplémentaires.
- L’humilité, qui l’incite à reconnaître ses zones d’incertitude.
Le système a été testé sur 200 cas cliniques simulés, à partir de scénarios médicaux standardisés. Les chercheurs ont comparé les réponses d’un modèle classique et celles du même modèle avec BODHI, en évaluant leur qualité sur une échelle de 0 à 100. Cette évaluation repose sur une grille standardisée, appliquée par des évaluateurs humains, qui prend en compte plusieurs critères : exactitude médicale, pertinence du raisonnement et gestion de l’incertitude.
Les résultats de cette étude ont été publiés le 23 mars 2026 dans BMJ Health & Care Informatics.
Résultats : dans 97 % des cas, l’IA demande des informations complémentaires
- Une amélioration nette de la qualité des réponses +17,3 points sur 100 pour un modèle, +7,4 points pour un autre, selon un score combinant exactitude médicale, raisonnement et gestion de l’incertitude.
- Un recours massif aux questions en cas d’incertitude 97,3 % avec le système doté e BODHI contre 0 à 7 % des cas sans BODHI.
- Des réponses plus prudentes et mieux cadrées augmentation significative des formulations nuancées : réserves explicites, hypothèses alternatives, signalement des limites.
- Moins de réponses erronées exprimées avec assurance baisse significative des situations où le modèle se trompe tout en affichant un haut niveau de confiance.
Quand l’IA se transforme en « co-pilote »
Cette étude ouvre une piste : rendre les IA médicales plus utiles ne passe pas seulement par de meilleures performances, mais par une meilleure interaction avec les soignants. « Nous utilisons aujourd’hui l’IA comme un oracle, mais nous pouvons l’utiliser comme un coach. Nous pourrions en faire un véritable copilote », explique Leo Anthony Celi, chercheur au MIT, médecin au Beth Israel Deaconess Medical Center et dernier auteur de l’étude.
L’enjeu est aussi organisationnel. Introduire ce type de système suppose d’accepter une IA qui ralentit parfois la décision pour la sécuriser, et qui incite à reconsidérer certaines situations. « C’est comme avoir un copilote qui vous dirait qu’il faut un regard neuf pour mieux comprendre un patient complexe », ajoute-t-il.
En outre, cette approche rappelle une limite déjà souvent soulevée : une IA ne peut être aussi fiable que les données sur lesquelles elle est entraînée. Les chercheurs appellent ainsi à plus de rigueur dans leur conception. « Nous ne pouvons pas arrêter ni même ralentir le développement de l’IA, mais nous devons être plus réfléchis et plus rigoureux dans la manière dont nous la développons », souligne Leo Anthony Celi.
Ces résultats restent toutefois préliminaires. Le système a été testé sur des cas simulés, et non en conditions réelles. Son impact devra encore être évalué en situation clinique, notamment sur la prise de décision et la charge de travail des soignants.
*Engineering framework for curiosity-driven and humble AI in clinical decision support.
Arslan J, Benke K, Cajas Ordones SA, Castro R, Celi LA, Cruz Suarez GA, et al. BMJ Health & Care Informatics. 2026;33:e101877. https://doi.org/10.1136/bmjhci-2025-101877
https://informatics.bmj.com/content/33/1/e101877