Données cliniques : le NLP atteint la performance humaine, sans passer l’épreuve du réel (étude JAMIA)
Publié le mardi 28 octobre 2025 à 17h27
Data RechercheUne revue systématique parue le 15 octobre 2025 dans JAMIA passe au crible 15 études publiées depuis 2010 sur l’extraction d’informations cliniques à partir de textes des DME pour alimenter des registres. Verdict : l’intérêt et les performances progressent depuis 2020, mais l’écosystème reste limité, hétérogène et peu reproductible. Les grands modèles génératifs n’en sont qu’aux balbutiements.
Une contribution essentielle au chantier de la donnée clinique structurée
Les registres cliniques sont l’un des piliers de la recherche médicale et de l’évaluation des pratiques. Ils permettent de suivre les patients, d’évaluer les traitements et d’éclairer les politiques publiques. Mais leur alimentation repose encore largement sur une extraction manuelle des données à partir des dossiers médicaux électroniques (DME), une tâche chronophage, coûteuse et sujette à l’erreur.
Dans ce contexte, des chercheurs voient dans le traitement automatique du langage naturel (NLP) un levier stratégique : convertir les textes narratifs des DME (comptes rendus, anapath, notes opératoires) en variables structurées, prêtes à intégrer les registres.
C’est ce champ que vient explorer l’étude publiée par plusieurs chercheurs de l’université de la New South Wales de Sidney dans le Journal of the American Medical Informatics Association, analysant quinze ans de travaux sur l’usage du NLP pour automatiser la création de registres.
Les auteurs constatent un essor depuis 2020, porté par les progrès de l’IA et la généralisation des DME. Mais les solutions restent encore expérimentales, hétérogènes et peu reproductibles, loin d’un standard industriel.
Un état des lieux mondial des approches :
L’analyse couvre 15 études conduites entre 2010 et 2025, issues de sept pays (dont les États-Unis, la Chine et l’Allemagne), et couvrant une diversité de domaines : oncologie, cardiologie, orthopédie, néphrologie, ophtalmologie ou encore maladies infectieuses.
Les approches recensées se répartissent en six grandes familles :
-
Règles et expressions régulières, dominantes historiquement ;
-
Classification de texte (modèles classiques et réseaux de neurones) ;
-
Reconnaissance d’entités nommées (NER) pour identifier diagnostics, procédures, médicaments ;
-
Inférence textuelle (NLI) pour déduire automatiquement des relations logiques ;
-
Text mining hybride, combinant règles et apprentissage ;
-
Et, plus récemment, modèles de langage génératifs (LLM), utilisés dans une seule étude pour extraire automatiquement des informations d’anatomopathologie.
Les performances observées varient fortement : certaines approches atteignent près de 99 % de précision sur des textes semi-structurés, quand d’autres tombent sous les 50 % de F1-score sur des corpus hétérogènes.
Des résultats prometteurs, mais encore très inégaux
Les méthodes à base de règles restent les plus stables lorsqu’elles s’appliquent à des formats bien cadrés (par exemple, les rapports opératoires). Les approches d’apprentissage supervisé montrent des résultats plus variables, fortement dépendants de la qualité et du volume des données annotées.
Quant aux LLM, leurs premiers résultats sont encourageants : un taux de complétude de 97 % sur de petits échantillons de rapports médicaux. Mais les auteurs de l’étude rappellent qu’il ne s’agit encore que d’expérimentations : coût computationnel, biais, confidentialité et manque d’évaluations comparatives limitent encore leur usage clinique réel.
Un équilibre difficile entre performance, coût et généralisabilité :
L’étude souligne un constat récurrent : les systèmes de NLP performants sont souvent spécifiques à un registre, un hôpital ou une spécialité. Une méthode conçue pour extraire des données de cancer à partir de comptes rendus d’anapath ne peut pas être réutilisée telle quelle pour la cardiologie ou les notes de consultation, par exemple. De plus, la plupart des approches reposent sur des corpus annotés manuellement : une ressource coûteuse et difficile à maintenir dans le temps.
Cette dépendance à l’expertise humaine rend les modèles fragiles, coûteux à adapter, et donc peu “scalables” à l’échelle nationale ou internationale.
Un manque de validation et de partage :
La revue révèle une faible reproductibilité :
-
73 % des études n’ont pas mené de validation externe ;
-
80 % ne publient pas leurs données ;
-
53 % ne partagent pas leur code ;
-
87 % ne diffusent ni leurs modèles, ni leurs règles.
Malgré ces limites, cinq projets ont franchi le cap de la mise en œuvre réelle, notamment dans les registres cardiovasculaires chinois, les cancers à Taïwan ou les registres orthopédiques canadiens.
Vers une nouvelle génération de cadres méthodologiques
L’enseignement majeur de cette revue est qu’aucune méthode ne peut, à elle seule, répondre aux exigences de performance, de traçabilité et de généralisation. Les auteurs appellent donc à un cadre méthodologique commun, combinant :
-
des définitions normalisées des champs de registre ;
-
des pipelines “human-in-the-loop” intégrant apprentissage actif et révision experte ;
-
des validations temporelles et géographiques systématiques ;
-
et la publication d’artefacts ouverts (modèles, règles, jeux de test).
Les fondations comme BERT, BioClinicalBERT et les LLM génératifs pourront s’y intégrer, à condition de garantir un usage contrôlé, éthique et transparent.
Un potentiel à concrétiser :
En conclusion, l’étude trace une ligne claire : le NLP peut déjà atteindre des performances proches de celles de l’humain sur des tâches ciblées, mais reste trop fragmenté et peu transférable pour une industrialisation à grande échelle. L’enjeu des prochaines années ne sera donc pas seulement algorithmique, mais organisationnel : concevoir des infrastructures de registres apprenantes, robustes, auditées et durables, où la donnée clinique, structurée ou non, devient un bien commun au service de la recherche et de la santé publique.