Etude : l’évaluation humaine des LLM manque de fiabilité (Nature Digital Medicine)
Publié le vendredi 25 octobre 2024 à 17h08
Recherche GEN AIDes chercheurs américains de l’université de Pittsburgh ont passé en revue 142 études afin de mesurer la pertinence des méthodes d’évaluation humaine des grands modèles de langage (LLM). Leurs résultats*, publiés dans Nature Digital Medicine, mettent en évidence de vraies lacunes. Les évaluations apparaissent incohérentes et peu fiables, ce qui pourrait compromettre la sécurité des patients.