IA : Claude 3.5, GPT-4o et DeepSeek en tête sur MedAgentBench, un test grandeur nature pour l’IA médicale
Publié le mardi 23 septembre 2025 à 12h20
IA Recherche GEN AIGrâce à MedAgentBench, des chercheurs de Stanford mesurent pour la première fois la capacité d’agents IA à exécuter 300 tâches cliniques complexes dans des dossiers patients électroniques réalistes, avec un taux de succès de 70 % pour le meilleur modèle.
- 🧪 300 tâches cliniques simulées ont été conçues par des médecins pour tester la capacité des agents IA à agir dans des environnements médicaux réalistes.
- 🩺 100 profils patients réels, extraits de la base STARR, ont servi de base à l’expérimentation, représentant 785 000 données cliniques.
- 📊 Le modèle Claude 3.5 Sonnet v2 obtient la meilleure performance avec 69,67 % de succès, suivi de GPT-4o (64 %) et DeepSeek-V3 (62,67 %).
- 📉 Les modèles open source sont globalement en retrait : Qwen2.5 (51,33 %), LLaMA 3.3 (46,33 %) et Mistral v0.3 (4,00 %).
- ⚠️ Les erreurs les plus fréquentes sont liées à des formats de réponse incorrects ou des réponses incomplètes, souvent non conformes aux consignes.
- 🧩 Les tâches testées couvrent 10 catégories cliniques, dont la prescription, la documentation, l’analyse de données, et les demandes d’examens.
- 🛠️ MedAgentBench utilise une infrastructure FHIR-compliant, ce qui rend les résultats transférables vers des systèmes EHR réels.
- 🧑⚕️ Les agents IA sont conçus comme des assistants numériques, capables de gérer des tâches de routine pour soulager les cliniciens.
- ⏱️ Plus de 70 % du temps médical est aujourd’hui consacré à des tâches administratives, que ces agents IA pourraient contribuer à réduire.
- 📂 Le benchmark est open source et disponible sur GitHub, pour favoriser la reproductibilité et l’amélioration continue des modèles.
Stanford confronte les agents IA à des tâches cliniques complexes sur dossiers simulés
Alors que les modèles d’IA médicale font l’objet d’un fort engouement, la question de leur efficacité réelle en contexte clinique reste en cours d’exploration. Pour combler ce vide, une équipe pluridisciplinaire de Stanford University a développé MedAgentBench, une plateforme de test destinée à évaluer la capacité des agents IA — des modèles capables d’agir, et non seulement de répondre — à effectuer des tâches cliniques dans un environnement simulé mais réaliste de dossier patient électronique. Publiée dans NEJM AI, l’étude (financée par les NIH (National Institutes of Health) et la Singapore National Science Scholarship) met en lumière une différence entre les modèles LLM classiques (type chatbot) et les agents IA : ces derniers peuvent exécuter des actions complexes de manière autonome, en s’appuyant sur les API FHIR standardisées, comme consulter des antécédents médicaux, prescrire un traitement ou planifier un examen. « Chatbots say things. AI agents can do things », résume Jonathan Chen, professeur à Stanford et auteur principal de l’étude.
300 tâches cliniques simulées pour 100 profils patients
Le benchmark comprend 300 tâches cliniques rédigées par des médecins, couvrant dix catégories allant de la récupération de données à la prescription médicamenteuse. Elles ont été testées sur 100 profils patients réalistes extraits de la base de données STARR, totalisant 785 000 enregistrements cliniques (biologie, diagnostics, traitements, procédures, etc.). L’environnement reproduit fidèlement un système EHR conforme à la norme FHIR, avec lequel les modèles interagissent via des requêtes GET ou POST, selon qu’il s’agit de requêtes passives ou d’actions modifiant les données du patient.
Résultats : des performances variables, un plafond à 70 %
Claude 3.5 Sonnet, GPT-4o et DeepSeek-V3 en tête des performances IA cliniques
Douze modèles LLM de dernière génération ont été évalués, notamment Claude 3.5 Sonnet v2, GPT-4o, Gemini et LLaMA 3. La meilleure performance est enregistrée par Claude 3.5 Sonnet v2 avec un taux de succès de 69,67 %. GPT-4o suit avec 64 %, devant DeepSeek-V3 (62,67 %) et Gemini 1.5 Pro (62 %). Les modèles open source (Qwen2.5, LLaMA 3.3, Mistral) restent nettement en retrait (classement ci-après : modèle/taux de succès global) :
- Claude 3.5 Sonnet v2 : 69,67 %
- GPT-4o : 64,00 %
- DeepSeek-V3 : 62,67 %
- Gemini 1.5 Pro : 62,00 %
- GPT-4o-mini : 56,33 %
- o3-mini : 51,67 %
- Qwen2.5 (open) : 51,33 %
- Llama 3.3 (open) : 46,33 %
- Gemini 2.0 Flash : 38,33 %
- Gemma2 (open) : 19,33 %
- Gemini 2.0 Pro : 18,00 %
- Mistral v0.3 (open) : 4,00 %
Réponses imprécises et formats non conformes : les erreurs fréquentes des agents IA évaluées
Les tâches basées uniquement sur la consultation de données (requêtes GET) sont généralement mieux exécutées que celles impliquant une modification du dossier (POST). Les erreurs les plus fréquentes concernent le non-respect du format attendu ou des réponses incomplètes. Ces agents IA ne remplaceront pas les cliniciens mais pourraient rapidement s’imposer comme assistants numériques pour des tâches « de routine ». La prochaine étape consiste à sécuriser ces systèmes, étudier leurs limites et les déployer dans des projets pilotes réels. « Avec une conception rigoureuse, il sera possible de passer de prototypes à des essais cliniques en conditions réelles », estime Kameron Black (médecin et co-auteur de l’étude). Face à une pénurie mondiale anticipée de plus de 10 millions de soignants d’ici 2030, les agents IA pourraient alléger la charge documentaire et administrative, qui représente plus de 70 % du temps de travail médical selon l’étude.
MedAgentBench : une nouvelle référence ouverte pour l’évaluation des agents IA en médecine
Un benchmark ouvert pour la communauté
MedAgentBench est open source et disponible sur GitHub. Il ambitionne de devenir un standard pour mesurer l’autonomie des agents IA dans les contextes médicaux. L’équipe espère ainsi fournir un cadre de référence pour les développeurs de modèles, les éditeurs de solutions EHR et les hôpitaux intégrant l’IA dans leur infrastructure. « Nous avons besoin de repères pour comprendre ce que ces systèmes savent faire, à quelle fréquence ils échouent et comment ils peuvent progresser », conclut Jonathan Chen. Ce benchmark simule donc des conversations réalistes entre patients et médecins à travers une variété de cas cliniques, afin d’analyser la précision médicale, l’utilité clinique et la sûreté des réponses générées par ces agents.
Sources et ressources :
Jiang Y, Black KC, Geng G, Park D, Zou J, Ng AY, Chen JH. MedAgentBench: A Virtual EHR Environment to Benchmark Medical LLM Agents. NEJM AI. 2025;2(9): Article AIdbp2500144.
Github : Stanford ML Group. MedAgentBench [Internet]. GitHub; 2025. Disponible : https://github.com/stanfordmlgroup/MedAgentBench