IA : Claude 3.5, GPT-4o et DeepSeek en tête sur MedAgentBench, un test grandeur nature pour l’IA médicale

Publié le mardi 23 septembre 2025 à 12h20

IA Recherche GEN AI

Grâce à MedAgentBench, des chercheurs de Stanford mesurent pour la première fois la capacité d’agents IA à exécuter 300 tâches cliniques complexes dans des dossiers patients électroniques réalistes, avec un taux de succès de 70 % pour le meilleur modèle.

  • 🧪 300 tâches cliniques simulées ont été conçues par des médecins pour tester la capacité des agents IA à agir dans des environnements médicaux réalistes.
  • 🩺 100 profils patients réels, extraits de la base STARR, ont servi de base à l’expérimentation, représentant 785 000 données cliniques.
  • 📊 Le modèle Claude 3.5 Sonnet v2 obtient la meilleure performance avec 69,67 % de succès, suivi de GPT-4o (64 %) et DeepSeek-V3 (62,67 %).
  • 📉 Les modèles open source sont globalement en retrait : Qwen2.5 (51,33 %), LLaMA 3.3 (46,33 %) et Mistral v0.3 (4,00 %).
  • ⚠️ Les erreurs les plus fréquentes sont liées à des formats de réponse incorrects ou des réponses incomplètes, souvent non conformes aux consignes.
  • 🧩 Les tâches testées couvrent 10 catégories cliniques, dont la prescription, la documentation, l’analyse de données, et les demandes d’examens.
  • 🛠️ MedAgentBench utilise une infrastructure FHIR-compliant, ce qui rend les résultats transférables vers des systèmes EHR réels.
  • 🧑‍⚕️ Les agents IA sont conçus comme des assistants numériques, capables de gérer des tâches de routine pour soulager les cliniciens.
  • ⏱️ Plus de 70 % du temps médical est aujourd’hui consacré à des tâches administratives, que ces agents IA pourraient contribuer à réduire.
  • 📂 Le benchmark est open source et disponible sur GitHub, pour favoriser la reproductibilité et l’amélioration continue des modèles.

Stanford confronte les agents IA à des tâches cliniques complexes sur dossiers simulés

Alors que les modèles d’IA médicale font l’objet d’un fort engouement, la question de leur efficacité réelle en contexte clinique reste en cours d’exploration. Pour combler ce vide, une équipe pluridisciplinaire de Stanford University a développé MedAgentBench, une plateforme de test destinée à évaluer la capacité des agents IA — des modèles capables d’agir, et non seulement de répondre — à effectuer des tâches cliniques dans un environnement simulé mais réaliste de dossier patient électronique. Publiée dans NEJM AI, l’étude (financée par les NIH (National Institutes of Health) et la Singapore National Science Scholarship) met en lumière une différence entre les modèles LLM classiques (type chatbot) et les agents IA : ces derniers peuvent exécuter des actions complexes de manière autonome, en s’appuyant sur les API FHIR standardisées, comme consulter des antécédents médicaux, prescrire un traitement ou planifier un examen. « Chatbots say things. AI agents can do things », résume Jonathan Chen, professeur à Stanford et auteur principal de l’étude.

300 tâches cliniques simulées pour 100 profils patients

Le benchmark comprend 300 tâches cliniques rédigées par des médecins, couvrant dix catégories allant de la récupération de données à la prescription médicamenteuse. Elles ont été testées sur 100 profils patients réalistes extraits de la base de données STARR, totalisant 785 000 enregistrements cliniques (biologie, diagnostics, traitements, procédures, etc.). L’environnement reproduit fidèlement un système EHR conforme à la norme FHIR, avec lequel les modèles interagissent via des requêtes GET ou POST, selon qu’il s’agit de requêtes passives ou d’actions modifiant les données du patient.

Résultats : des performances variables, un plafond à 70 %

Claude 3.5 Sonnet, GPT-4o et DeepSeek-V3 en tête des performances IA cliniques

Douze modèles LLM de dernière génération ont été évalués, notamment Claude 3.5 Sonnet v2, GPT-4o, Gemini et LLaMA 3. La meilleure performance est enregistrée par Claude 3.5 Sonnet v2 avec un taux de succès de 69,67 %. GPT-4o suit avec 64 %, devant DeepSeek-V3 (62,67 %) et Gemini 1.5 Pro (62 %). Les modèles open source (Qwen2.5, LLaMA 3.3, Mistral) restent nettement en retrait (classement ci-après : modèle/taux de succès global) :

  • Claude 3.5 Sonnet v2 : 69,67 %
  • GPT-4o : 64,00 %
  • DeepSeek-V3 : 62,67 %
  • Gemini 1.5 Pro : 62,00 %
  • GPT-4o-mini : 56,33 %
  • o3-mini : 51,67 %
  • Qwen2.5 (open) : 51,33 %
  • Llama 3.3 (open) : 46,33 %
  • Gemini 2.0 Flash : 38,33 %
  • Gemma2 (open) : 19,33 %
  • Gemini 2.0 Pro : 18,00 %
  • Mistral v0.3 (open) : 4,00 %

Réponses imprécises et formats non conformes : les erreurs fréquentes des agents IA évaluées

Les tâches basées uniquement sur la consultation de données (requêtes GET) sont généralement mieux exécutées que celles impliquant une modification du dossier (POST). Les erreurs les plus fréquentes concernent le non-respect du format attendu ou des réponses incomplètes. Ces agents IA ne remplaceront pas les cliniciens mais pourraient rapidement s’imposer comme assistants numériques pour des tâches « de routine ». La prochaine étape consiste à sécuriser ces systèmes, étudier leurs limites et les déployer dans des projets pilotes réels. « Avec une conception rigoureuse, il sera possible de passer de prototypes à des essais cliniques en conditions réelles », estime Kameron Black (médecin et co-auteur de l’étude). Face à une pénurie mondiale anticipée de plus de 10 millions de soignants d’ici 2030, les agents IA pourraient alléger la charge documentaire et administrative, qui représente plus de 70 % du temps de travail médical selon l’étude.

MedAgentBench : une nouvelle référence ouverte pour l’évaluation des agents IA en médecine

Un benchmark ouvert pour la communauté

MedAgentBench est open source et disponible sur GitHub. Il ambitionne de devenir un standard pour mesurer l’autonomie des agents IA dans les contextes médicaux. L’équipe espère ainsi fournir un cadre de référence pour les développeurs de modèles, les éditeurs de solutions EHR et les hôpitaux intégrant l’IA dans leur infrastructure. « Nous avons besoin de repères pour comprendre ce que ces systèmes savent faire, à quelle fréquence ils échouent et comment ils peuvent progresser », conclut Jonathan Chen. Ce benchmark simule donc des conversations réalistes entre patients et médecins à travers une variété de cas cliniques, afin d’analyser la précision médicale, l’utilité clinique et la sûreté des réponses générées par ces agents.

Sources et ressources :

Jiang Y, Black KC, Geng G, Park D, Zou J, Ng AY, Chen JH. MedAgentBench: A Virtual EHR Environment to Benchmark Medical LLM Agents. NEJM AI. 2025;2(9): Article AIdbp2500144.

Github : Stanford ML Group. MedAgentBench [Internet]. GitHub; 2025. Disponible : https://github.com/stanfordmlgroup/MedAgentBench

FermerPlease login

No account yet? Register

membres-icon

Derniers membres

morgane inscrit il y a 1 semaine et 4 jours
Benjamin inscrit il y a 3 semaines et 4 jours
François inscrit il y a 1 mois et 1 semaine
Charles inscrit il y a 1 mois et 1 semaine
Aicha inscrit il y a 2 mois et 1 semaine
Nozha inscrit il y a 3 mois et 2 semaines
Fiona inscrit il y a 3 mois et 2 semaines
Nourhene inscrit il y a 4 mois
confiance-icon

Ils nous font confiance

Jean François Pomerol
CEO

« Tribun Health est l’un des leaders en matière de solutions de pathologie numérique pour les établissements de santé publics et privés et l’environnement / organisations pharmaceutiques. Le décryptage de l’actualité numérique santé au sein de l’écosystème est un relais majeur pour comprendre, accompagner et développer nos activités tant au niveau institutionnel qu’au niveau des établissements (réseau des DG / DSI / CME

Dr Charlotte Garret
Directrice Médicale

« L'hebdo Health&Tech est un excellent support d'informations en termes d'actualités dans le domaine de la santé numérique, de l'IA, de la veille réglementaire... L'hebdo s'intéresse aux actualités françaises mais aussi internationales, ce qui permet d'avoir une vision globale des innovations en santé dans les domaines du digital et du numérique. Cela nous permet, au sein du LAB innovation chez Santéclair, d'être toujours informés des nouveaux acteurs du marché et des actualités dans ce domaine en perpétuel évolution ».

Aurélien Pécoul
Acting Director & open innovation manager

« En tant qu'acteur clé de l'industrie pharmaceutique, nous avons eu le privilège de collaborer avec Care Insight pour nos besoins en veille stratégique et en conseil dans le domaine de la santé numérique. Leur expertise, leur engagement et leur intégration au sein de l'écosystème de la santé numérique sont des atouts essentiels pour nous permettre d'accéder à une information de qualité. Leur capacité à fournir des panoramas détaillés, des benchmarks précis des solutions numériques et à définir des axes d'opportunités nous permet de mieux comprendre le paysage numérique de la santé en constante évolution et de formuler des stratégies de développement pertinentes. »

Arnaud Houette
CEO

« Extens est en France l’un des fonds majeurs d'investissement dédié aux éditeurs de logiciels de santé. A ce titre, Care Insight nous permet, par le service de veille HealthTech Intelligence, de comprendre les segments en évolution et accompagner nos stratégies d’investissement ciblées. Une très bonne source d’information fiable et pertinente ».

Pascal Dussert
Directeur Europe sale

“Care Insight est fédérateur d’innovations permettant d’accélérer l’émergence de projets d’envergure en s’appuyant sur son vaste réseau d’experts cliniques, institutionnels et industriels »

events-icon

Événements

Revivez les meilleurs moments !

Retrouver en image le Health&Tech Summit 2023 consacré aux cas d’usages concrets de l’IA et de la Data en Santé.