Données cliniques : le NLP atteint la performance humaine, sans passer l’épreuve du réel (étude JAMIA)

Publié le mardi 28 octobre 2025 à 17h27

Data Recherche

Une revue systématique parue le 15 octobre 2025 dans JAMIA passe au crible 15 études publiées depuis 2010 sur l’extraction d’informations cliniques à partir de textes des DME pour alimenter des registres. Verdict : l’intérêt et les performances progressent depuis 2020, mais l’écosystème reste limité, hétérogène et peu reproductible. Les grands modèles génératifs n’en sont qu’aux balbutiements.

Une contribution essentielle au chantier de la donnée clinique structurée

Les registres cliniques sont l’un des piliers de la recherche médicale et de l’évaluation des pratiques. Ils permettent de suivre les patients, d’évaluer les traitements et d’éclairer les politiques publiques. Mais leur alimentation repose encore largement sur une extraction manuelle des données à partir des dossiers médicaux électroniques (DME), une tâche chronophage, coûteuse et sujette à l’erreur.

Dans ce contexte, des chercheurs voient dans le traitement automatique du langage naturel (NLP) un levier stratégique : convertir les textes narratifs des DME (comptes rendus, anapath, notes opératoires) en variables structurées, prêtes à intégrer les registres.
C’est ce champ que vient explorer l’étude publiée par plusieurs chercheurs de l’université de la New South Wales de Sidney dans le Journal of the American Medical Informatics Association, analysant quinze ans de travaux sur l’usage du NLP pour automatiser la création de registres.

Les auteurs constatent un essor depuis 2020, porté par les progrès de l’IA et la généralisation des DME. Mais les solutions restent encore expérimentales, hétérogènes et peu reproductibles, loin d’un standard industriel.

Un état des lieux mondial des approches :

L’analyse couvre 15 études conduites entre 2010 et 2025, issues de sept pays (dont les États-Unis, la Chine et l’Allemagne), et couvrant une diversité de domaines : oncologie, cardiologie, orthopédie, néphrologie, ophtalmologie ou encore maladies infectieuses.

Les approches recensées se répartissent en six grandes familles :

  • Règles et expressions régulières, dominantes historiquement ;

  • Classification de texte (modèles classiques et réseaux de neurones) ;

  • Reconnaissance d’entités nommées (NER) pour identifier diagnostics, procédures, médicaments ;

  • Inférence textuelle (NLI) pour déduire automatiquement des relations logiques ;

  • Text mining hybride, combinant règles et apprentissage ;

  • Et, plus récemment, modèles de langage génératifs (LLM), utilisés dans une seule étude pour extraire automatiquement des informations d’anatomopathologie.

Les performances observées varient fortement : certaines approches atteignent près de 99 % de précision sur des textes semi-structurés, quand d’autres tombent sous les 50 % de F1-score sur des corpus hétérogènes.

Des résultats prometteurs, mais encore très inégaux

Les méthodes à base de règles restent les plus stables lorsqu’elles s’appliquent à des formats bien cadrés (par exemple, les rapports opératoires). Les approches d’apprentissage supervisé montrent des résultats plus variables, fortement dépendants de la qualité et du volume des données annotées.

Quant aux LLM, leurs premiers résultats sont encourageants : un taux de complétude de 97 % sur de petits échantillons de rapports médicaux. Mais les auteurs de l’étude rappellent qu’il ne s’agit encore que d’expérimentations : coût computationnel, biais, confidentialité et manque d’évaluations comparatives limitent encore leur usage clinique réel.

Un équilibre difficile entre performance, coût et généralisabilité :

L’étude souligne un constat récurrent : les systèmes de NLP performants sont souvent spécifiques à un registre, un hôpital ou une spécialité. Une méthode conçue pour extraire des données de cancer à partir de comptes rendus d’anapath ne peut pas être réutilisée telle quelle pour la cardiologie ou les notes de consultation, par exemple. De plus, la plupart des approches reposent sur des corpus annotés manuellement : une ressource coûteuse et difficile à maintenir dans le temps.

Cette dépendance à l’expertise humaine rend les modèles fragiles, coûteux à adapter, et donc peu “scalables” à l’échelle nationale ou internationale.

Un manque de validation et de partage :

La revue révèle une faible reproductibilité :

  • 73 % des études n’ont pas mené de validation externe ;

  • 80 % ne publient pas leurs données ;

  • 53 % ne partagent pas leur code ;

  • 87 % ne diffusent ni leurs modèles, ni leurs règles.

Malgré ces limites, cinq projets ont franchi le cap de la mise en œuvre réelle, notamment dans les registres cardiovasculaires chinois, les cancers à Taïwan ou les registres orthopédiques canadiens.

Vers une nouvelle génération de cadres méthodologiques

L’enseignement majeur de cette revue est qu’aucune méthode ne peut, à elle seule, répondre aux exigences de performance, de traçabilité et de généralisation. Les auteurs appellent donc à un cadre méthodologique commun, combinant :

  • des définitions normalisées des champs de registre ;

  • des pipelines “human-in-the-loop” intégrant apprentissage actif et révision experte ;

  • des validations temporelles et géographiques systématiques ;

  • et la publication d’artefacts ouverts (modèles, règles, jeux de test).

Les fondations comme BERT, BioClinicalBERT et les LLM génératifs pourront s’y intégrer, à condition de garantir un usage contrôlé, éthique et transparent.

Un potentiel à concrétiser :

En conclusion, l’étude trace une ligne claire : le NLP peut déjà atteindre des performances proches de celles de l’humain sur des tâches ciblées, mais reste trop fragmenté et peu transférable pour une industrialisation à grande échelle. L’enjeu des prochaines années ne sera donc pas seulement algorithmique, mais organisationnel : concevoir des infrastructures de registres apprenantes, robustes, auditées et durables, où la donnée clinique, structurée ou non, devient un bien commun au service de la recherche et de la santé publique.

FermerPlease login

No account yet? Register

membres-icon

Derniers membres

Jennifer inscrit il y a 4 semaines
morgane inscrit il y a 1 mois et 1 semaine
Benjamin inscrit il y a 1 mois et 3 semaines
François inscrit il y a 2 mois et 1 semaine
Charles inscrit il y a 2 mois et 1 semaine
Aicha inscrit il y a 3 mois et 2 semaines
Nozha inscrit il y a 4 mois et 2 semaines
Fiona inscrit il y a 4 mois et 2 semaines
confiance-icon

Ils nous font confiance

Jean François Pomerol
CEO

« Tribun Health est l’un des leaders en matière de solutions de pathologie numérique pour les établissements de santé publics et privés et l’environnement / organisations pharmaceutiques. Le décryptage de l’actualité numérique santé au sein de l’écosystème est un relais majeur pour comprendre, accompagner et développer nos activités tant au niveau institutionnel qu’au niveau des établissements (réseau des DG / DSI / CME

Dr Charlotte Garret
Directrice Médicale

« L'hebdo Health&Tech est un excellent support d'informations en termes d'actualités dans le domaine de la santé numérique, de l'IA, de la veille réglementaire... L'hebdo s'intéresse aux actualités françaises mais aussi internationales, ce qui permet d'avoir une vision globale des innovations en santé dans les domaines du digital et du numérique. Cela nous permet, au sein du LAB innovation chez Santéclair, d'être toujours informés des nouveaux acteurs du marché et des actualités dans ce domaine en perpétuel évolution ».

Aurélien Pécoul
Acting Director & open innovation manager

« En tant qu'acteur clé de l'industrie pharmaceutique, nous avons eu le privilège de collaborer avec Care Insight pour nos besoins en veille stratégique et en conseil dans le domaine de la santé numérique. Leur expertise, leur engagement et leur intégration au sein de l'écosystème de la santé numérique sont des atouts essentiels pour nous permettre d'accéder à une information de qualité. Leur capacité à fournir des panoramas détaillés, des benchmarks précis des solutions numériques et à définir des axes d'opportunités nous permet de mieux comprendre le paysage numérique de la santé en constante évolution et de formuler des stratégies de développement pertinentes. »

Arnaud Houette
CEO

« Extens est en France l’un des fonds majeurs d'investissement dédié aux éditeurs de logiciels de santé. A ce titre, Care Insight nous permet, par le service de veille HealthTech Intelligence, de comprendre les segments en évolution et accompagner nos stratégies d’investissement ciblées. Une très bonne source d’information fiable et pertinente ».

Pascal Dussert
Directeur Europe sale

“Care Insight est fédérateur d’innovations permettant d’accélérer l’émergence de projets d’envergure en s’appuyant sur son vaste réseau d’experts cliniques, institutionnels et industriels »

events-icon

Événements

Revivez les meilleurs moments !

Retrouver en image le Health&Tech Summit 2023 consacré aux cas d’usages concrets de l’IA et de la Data en Santé.