SophIA Summit : « l’analyse des données omiques révolutionne la recherche en biologie » (Arnaud Droit)
Paris - Publié le mardi 14 novembre 2023 à 13 h 54 - n° 17191 [ENTRETIEN] Compréhension en profondeur des mécanismes biologiques à un niveau moléculaire, identification des biomarqueurs associés à des maladies, personnalisation des traitements médicaux en fonction des profils génétiques, et découverte de nouvelles cibles thérapeutiques : « l’analyse des données »omiques« (génomique, transcriptomique, protéomique, métabolomiques…) révolutionne la recherche en biologie et en médecine. »Dans le cadre d’un entretien accordé en exclusivité à Health & Tech Intelligence en amont du SophIA Summit (22-24 novembre 2023, Sophia Antipolis) - dont H&TI est partenaire -, Arnaud DroitArnaud DroitArnaud Droit, professeur au département de médecine moléculaire de la faculté de médecine de l’université LavalUniversité LavalUniversité Laval (Québec), revient sur l’un de ses projets phares : la plateforme « ADlab » (« Arnaud Droit laboratory »), qui utilise des outils bio-informatiques afin de traiter et de « faire parler » les données « omiques ».
Au sein de cette plateforme, son équipe développe « de nouvelles méthodes adaptées au besoin de la recherche, spécifiques à chaque »omique« et permettant également de combiner les différents »omiques« entre eux (analyses multi-omiques) afin d’avoir une vision plus complète des processus biologiques ».
Interrogé sur son usage de l'intelligence artificielle (IA) dans le cadre de ses travaux, Arnaud Droit relève que l’IA est devenue « un outil essentiel dans un grand nombre de [ses] projets de recherche ». Il utilise notamment des techniques d’apprentissage machine (machine learning) et d’apprentissage profond (deep learning) pour extraire des informations significatives à partir de très grandes quantités de données « omiques ».
Un centre de recherche en données massives (1,5 pétaoctet)
Arnaud Droit est aussi membre du bureau de direction du Centre de recherche en données massives (CRDM) de l’université Laval, créé en 2016. Il s’agit d’un environnement « de recherche, de création et d’innovation impliqué dans la formation et la mobilisation des connaissances », explique-t-il. Précisant que sa programmation scientifique s’articule autour « du cycle de vie de la donnée, de sa génération à son analyse et à sa valorisation ».
Le CRDM traite un grand volume de données (1,5 pétaoctet) issues de projets de recherche et de vastes répertoires de banques de données « omiques » publiques.
Les LLMs pour mieux exploiter la connaissance biologique
De manière plus générale, Arnaud Droit relève que les principaux freins à surmonter dans le champ de la bio-informatique et de la génomique computationnelle - et en particulier dans l’utilisation de l’IA appliquée à ce domaine - sont « le manque de données fiables », « le manque d’interopérabilité entre les différents outils » et « la difficulté d’interprétation des résultats ».
Concernant les prochaines grandes avancées qu’il perçoit en la matière, il cite l’avènement des modèles de langage volumineux (Large Language Models : LLMs) en IA, qui ont selon lui le potentiel de « révolutionner » le secteur : « les LLMs sont capables d’apprendre à partir de grandes quantités de texte et de données, et d’en générer de nouveaux, permettant ainsi de mettre en lien la connaissance biologique et de mieux l’exploiter ».
👉 À (re)lire : SophIA Summit 2023 : des IA encore peu généralisables en raison du manque d’accès aux données (entretien avec Olivier Humbert, université Côté d’Azur - 3IA Côte d’Azur).
📌 Pour en savoir plus sur l'édition 2023 du SophIA Summit : [Partenariat H&TI] SophIA Summit 2023 : une journée dédiée à l’IA en recherche médicale (22-24/11).
Données « omiques » : une meilleure compréhension des maladies complexes
Vous travaillez sur l’analyse des données « omiques » et vous dirigez une plateforme de bio-informatique et de protéomique. En quoi l’analyse de ces données « omiques » fait-elle avancer la recherche ?
Arnaud Droit : L’analyse des données « omiques » révolutionne la recherche en biologie et en médecine. Ces données sont issues de mesures à différents niveaux moléculaires, notamment : ADN (génomique), ARNARNacide ribonucléique (transcriptomique), protéines (protéomique) et métabolites (métabolomiques). Elles sont générées par séquençage de nouvelle génération (ADN et ARN) ou par spectrométrie de masse (protéines et métabolites).
Leur analyse permet de comprendre en profondeur les mécanismes biologiques à un niveau moléculaire, d’identifier des biomarqueurs associés à des maladies, de personnaliser les traitements médicaux en fonction des profils génétiques et de découvrir de nouvelles cibles thérapeutiques.
Ces données ouvrent des portes pour une médecine plus efficace dite « de précision » et des avancées dans la compréhension des maladies complexes.
La plateforme que vous dirigez sert justement à analyser ces données « omiques »….
La plateforme que je dirige, nommée « ADlab » (« Arnaud Droit laboratory »), utilise les outils bio-informatiques les plus innovants afin de traiter et de faire parler les données « omiques », qui font partie de ce qu’on appelle « les données massives » car elles sont de très grande envergure. Au sein de cette plateforme, nous développons de nouvelles méthodes adaptées au besoin de la recherche, spécifiques à chaque « omique » et permettant également de combiner les différents « omiques » entre eux (analyses multi-omiques) afin d’avoir une vision plus complète des processus biologiques.
La plateforme ADlab offrent des services d'analyse bio-informatique et de protéomique, couvrant divers aspects de la recherche biomédicale et contribuent à de nombreux projets de recherche au Canada et à l’international. La plateforme ADlab a été créée en 2011 au sein du centre de génomique du centre de recherche du CHU de Québec - Université Laval, dans le but d’analyser tous les types de données « omiques » par bio-informatique. Elle a ensuite évolué pour intégrer la plateforme protéomique qui nous permet de générer nous-mêmes, par spectrométrie de masse, les données de protéomiques, c’est-à-dire liées au contenu protéique des échantillons. Pour les autres types de données « omiques », nous travaillons le plus souvent avec d’autres plateformes au sein du centre de génomique.
La plateforme offrent donc des services d’analyse bio-informatique et de protéomique, couvrant divers aspects de la recherche biomédicale et contribuent à de nombreux projets de recherche au Canada et à l’international.
Les ambitions incluent le soutien à la recherche fondamentale et clinique, le développement de nouvelles méthodologies et la collaboration internationale avec le secteur public et le secteur privé (bio-pharmaceutique et cosmétique notamment).
De manière plus générale, en quoi consiste exactement la génomique computationnelle ?
La génomique computationnelle est un domaine interdisciplinaire qui se situe à l’interface entre la biologie et l’informatique.
Elle consiste en l’application des approches informatiques, statistiques et mathématiques avancées pour analyser et interpréter les données biologiques, telles que le séquençage de l’ADN.
Cela inclut l’assemblage de génomes, l’identification de gènes, l’annotation fonctionnelle, l’analyse de variations génétiques et la prédiction de la structure et de la fonction des protéines.
« L’IA est devenue essentielle dans un grand nombre de nos projets de recherche »
Comment utilisez-vous l’intelligence artificielle (IA) dans vos travaux ?
L’intelligence artificielle, qui comprend notamment des techniques d’apprentissage machine (machine learning) et d’apprentissage profond (deep learning), est utilisée dans nos travaux de recherches pour extraire des informations significatives à partir de très grandes quantités de données « omiques ».
L’IA est un outil performant pour la découverte de biomarqueurs, l’analyse de variations génétiques et la prédiction de réponses aux traitements. Elle permet d’automatiser des tâches complexes et de faire des prédictions basées sur des modèles statistiques et des réseaux neuronaux.
L'IA est un outil performant pour la découverte de biomarqueurs, l'analyse de variations génétiques, la prédiction de réponses aux traitements. Elle permet d'automatiser des tâches complexes et de faire des prédictions basées sur des modèles statistiques et des réseaux neuronaux. Par exemple, mon équipe a exploité l’IA pour identifier des variations génétiques associées au cancer du sein et a découvert de nouveaux régulateurs dans le cancer de la prostate en analysant des données transcriptomiques, protéomiques et métabolomiques. Elle a également développé des outils bio-informatiques avancés basés sur l’IA, tels que BiodiscML, qui permet d’automatiser l’analyse de données « omiques » par machine learning, et BERNN, qui permet de corriger des biais lors de l’acquisition de données « omiques » grâce au deep learning.
Plusieurs de nos projets en cours explorent l’application de l’IA dans des domaines de la biologie et de la médecine tels que la cardiologie, l’oncologie pédiatrique, l’identification de bactéries dans des fluides biologiques et la détection précoce de la pré-éclampsie. Nous l’appliquons également à l’industrie cosmétique et à la santé de la peau à travers notre partenariat avec L’OréalL'Oréal.
Ainsi, l’IA est devenue un outil essentiel dans un grand nombre de nos projets de recherche.
Centre de recherche en données massives : 1,5 pétaoctet de données traitées
Vous êtes aussi membre du bureau de direction du Centre de recherche en données massives (CRDM) de l’université Laval. En quoi consiste exactement ce centre ?
Le Centre de recherche en données massives (CRDM) a été créé en 2016. C’est un environnement de recherche, de création et d’innovation impliqué dans la formation et la mobilisation des connaissances. Sa programmation scientifique s’articule autour du cycle de vie de la donnée, de sa génération à son analyse et à sa valorisation.
Ce pôle scientifique réunit une soixantaine de chercheurs et plus de 350 étudiants et chercheurs postdoctoraux œuvrant dans des domaines liés à la sphère des données.
Le CRDM poursuit les objectifs suivants :
- soutenir la communauté de la recherche sur l’ensemble du cycle de vie des données ;
- agir en concertation avec d’autres acteurs de la recherche ;
- offrir un milieu de formation de calibre international en science des données et thématiques reliées ;
- soutenir le développement durable d’infrastructures et de plateformes numériques ;
- promouvoir et mettre en œuvre des bonnes pratiques en matière de gestion des données de recherche, notamment par l’entremise des principes FAIRFAIRFindable, Accessible, Interoperable, Reusable ;
- relever les défis liés à la vie privée et la sécurité des données ;
- mobiliser les connaissances pour différentes parties prenantes ;
- répondre aux défis émergents de la société par l’entremise d’approches interdisciplinaires et intersectorielles.
Sur quels types de données travaillez-vous ? D’où proviennent-elles ?
Nous manipulons des données issues de projets de recherche et de vastes répertoires de banques de données « omiques » publiques.
Par exemple, ces bases de données renferment des informations sur l’expression génique ou protéique au sein de cohortes de patients présentant des maladies spécifiques.
D’autres bases de données se concentrent davantage sur les connaissances biologiques, notamment les fonctions géniques.
Quel est le volume de données traitées ?
Nous gérons actuellement environ 1,5 pétaoctet.
À titre d’exemple, nous avons récemment participé à des projets sur le cancer du sein, traitant plus de 10 000 exomesexomesEnsemble des gènes fonctionnels de l'organisme (1,5% du génome) de patientes atteintes de cette maladie. Chaque patient génère environ 25 gigaoctets de données, ce qui représente un total de 250 téraoctets uniquement pour ce projet.
Quels sont les travaux déjà réalisés et en cours dans le cadre de ce centre ?
La plateforme Genovalia offre une infrastructure de production, d’analyse et d’entreposage de données unique aux personnes œuvrant dans le domaine de la génomique non humaine. Le CRDM a contribué par exemple au développement de la plateforme Genovalia, née d’une initiative de Génome Québec et de l’université Laval. Elle offre une infrastructure de production, d’analyse et d’entreposage de données unique aux personnes œuvrant dans le domaine de la génomique non humaine.
Genovalia propose une gamme de services permettant une valorisation optimale des données génomiques non humaines allant de l’acquisition jusqu’à la modélisation complexe grâce aux meilleures approches analytiques en intelligence artificielle.
Utilisez-vous aussi l’IA au sein de centre pour mener vos projets ?
L’intelligence artificielle est une partie intégrante des projets de recherche. La multidisciplinarité des compétences du CRDM montrent la diversité des applications de l’intelligence artificielle.
Pour relever les défis liés au numérique dans divers domaines, nous adoptons la conception de nouvelles techniques et de méthodes en apprentissage par réseaux profonds, par renforcement et par transfert.
Une chaire L’Oréal pour promouvoir la recherche en biologie digitale
Vous êtes également titulaire de la chaire de recherche et d’innovation L’Oréal en biologie numérique, première chaire de recherche en biologie numérique. Pouvez-vous expliquer en quoi consiste cette Chaire ?
La chaire de recherche et d’innovation L’Oréal en biologie numérique, dont je suis le titulaire, est une initiative majeure qui vise à promouvoir la recherche en biologie digitale, particulièrement l’application des technologies numériques et de l’intelligence artificielle dans le domaine de la biologie de la peau.
Cette chaire a plusieurs objectifs, notamment l’avancement de la compréhension des processus biologiques à l’aide de l’IA, la découverte de nouvelles connaissances et le développement d’outils bio-informatiques. Ces approches de biologie digitale pourront ainsi déboucher sur une meilleure compréhension du fonctionnement de la peau et de son renouvellement.
En quoi est-ce une première ?
La création de la chaire de recherche et d’innovation L’Oréal en biologie digitale représente une première, tant pour L’Oréal que pour le domaine de la recherche en santé de la peau, marquant une avancée significative par le développement d’un programme ambitieux axé sur la digitalisation de la recherche liée à la biologie de la peau.
Elle se distingue par son approche pionnière grâce à l’analyse efficace et rigoureuse des données massives issues des technologies de nouvelle génération.
Cette toute première chaire dans le domaine, de collaboration internationale, a pour ambition d’aboutir à de grandes percées scientifiques grâce à l’utilisation des méthodes les plus innovantes à partir de données multiples et complexes issues des analyses « omiques ».
Un projet européen sur les maladies rares (troubles neurodéveloppementaux)
Vous avez établi diverses collaborations internationales couvrant différents champs de recherche en biologie, notamment en oncologie, en immunologie et dans les maladies de la peau. Avec quels acteurs travaillez-vous au niveau international ?
J’ai en effet établi des collaborations internationales avec un large éventail d’acteurs dans le domaine de la biologie ou de l’informatique. Parmi les partenaires internationaux figurent des institutions de recherche, des universités, et des organisations privées du monde entier.
Quelques exemples d’acteurs internationaux avec lesquels je collabore :
- l’université Paris Diderot (France) ;
- l’université Paris Saclay (France) ;
- l’université de Côte d’Azur - Sophia Antipolis (France) ;
- l’université de Bordeaux (France) ;
- l’université de Lille (France) ;
- l’université de Nantes (France) ;
- l’institut français de recherche pour l’exploitation de la mer (Ifremer, France) ;
- l’institut Louis Malardé (ILM, Polynésie française) ;
- l’université de Polynésie Française (Polynésie française) ;
- l’université de Melbourne (Australie) ;
- la Harvard Medical School (États-Unis) ;
- la George Washington University (États-Unis) ;
- l’University of Alberta (Canada) ;
- la Guelph University (Canada) ;
- L’OréalL'Oréal (France) ;
- SanofiSanofi (France) ;
- VerilyVerily Life Sciences - groupe Alphabet (États-Unis) ;
- ThermoFisher Scientific (États-Unis) ;
- Evosep (Danemark).
Sur quels projets travaillez-vous concrètement à l’international ?
Mon laboratoire s’est récemment engagé dans une nouvelle chaire de recherche Inria internationale, au sein de l’université de Côte-d’Azur dans l’équipe Massai, dédiée à la sténose aortique et dont l'objectif est de développer des approches d’IA afin de repérer rapidement les patients à risque de progression rapide de cette pathologie. Mon laboratoire s’est récemment engagé dans une nouvelle chaire de recherche InriaInria internationale, au sein de l’université Côte d’AzurUniversité Côte d'Azur dans l’équipe Massai, dédiée à la sténose aortique et dont l’objectif est de développer des approches d’intelligence artificielle afin de repérer rapidement les patients à risque de progression rapide de cette pathologie. De plus, à partir d’échantillons sanguins et des images médicales, nous cherchons à déterminer par apprentissage profond (deep learning) des profils de patients capables de recevoir un traitement médicamenteux visant à ralentir la progression de la maladie. Cette approche novatrice s’inscrit dans la quête constante de solutions médicales plus efficaces.
Par ailleurs, une collaboration avec les entreprises Thermo Fisher Scientific et Evosep nous permet de développer des tests de nouvelle génération pour le diagnostic des infections urinaires basés sur l’utilisation de la spectrométrie de masse de haute résolution et de l’apprentissage machine (machine learning). L’objectif de ces tests est de réduire considérablement le temps pour obtenir un diagnostic, ce qui revêt une importance majeure dans la lutte contre les infections. Cette initiative novatrice vise également à limiter le recours aux antibiotiques, contribuant ainsi à l’effort global pour la gestion responsable des agents antibactériens.
Le laboratoire est aussi impliqué dans un projet européen sur les maladies rares visant à découvrir de nouveaux traitements pour des troubles neurodéveloppementaux provoqués par un dysfonctionnement du système ubiquitine-protéasome dont le rôle est de réguler la dégradation des protéines dans la cellule. Pour ce projet, nous nous appuyons sur toutes les capacités de la plateforme ADlab puisque nous sommes à la fois responsable de la génération des données de protéomiques à partir d'échantillons sanguins de patients mais nous procédons également à l’intégration multi-omique de toutes les données « omiques » générées dans le cadre de ce projet d’envergure. À terme, nous visons l’identification de biomarqueurs spécifiques permettant un diagnostic précoce de la maladie, améliorant ainsi les soins de santé et réduisant son impact clinique et social. De plus, ces biomarqueurs permettront de surveiller l'évolution de ces maladies rares et de proposer des traitement plus efficaces afin d’améliorer la qualité de vie des patients.
Vers une amélioration des méthodes d’interprétation des résultats ?
Quels sont, selon vous, les principaux enjeux actuels dans le champ de la bio-informatique et de la génomique computationnelle, et en particulier dans l’utilisation de l’IA appliquée à ce domaine ?
Les principaux enjeux actuels liés à l’analyse des données biologiques à l’échelle moléculaire par la bioinformatique est le développement de nouvelles méthodes fiables permettant le traitement efficace et en profondeur des données massives que sont les données « omiques » ainsi que l’intégration de données hétérogènes provenant de différentes sources.
Il est aussi nécessaire de développer des outils pour l’interprétation et la visualisation des résultats. L’utilisation de l’IA dans ce domaine est prometteuse car elle peut permettre d’automatiser certaines tâches, de corriger les biais liés à l’acquisition des données, d’identifier des modèles dans ces données moléculaires complexes et de réaliser des prédictions.
Les prochaines grandes avancées que je perçois dans le champ de la bio-informatique et de la génomique computationnelle sont le développement de nouveaux modèles d'IA, l'utilisation de données plus importantes et plus complexes et l'amélioration des méthodes d'interprétation des résultats. Les principaux freins à surmonter sont le manque de données fiables, le manque d’interopérabilité entre les différents outils et la difficulté d’interprétation des résultats.
Les prochaines grandes avancées que je perçois en la matière sont le développement de nouveaux modèles d’IA, l’utilisation de données plus importantes et plus complexes et l’amélioration des méthodes d’interprétation des résultats.
L’avènement récent des modèles de langage volumineux (Large Language Models : LLMs) en IA est en particulier à suivre. Les LLMs ont le potentiel de révolutionner la bio-informatique et la génomique computationnelle. Ils sont capables d’apprendre à partir de grandes quantités de texte et de données, et d’en générer de nouveaux, permettant ainsi de mettre en lien la connaissance biologique et de mieux l’exploiter. Cela permettra aux chercheurs d’identifier de nouvelles relations entre les gènes, les protéines et les maladies et de développer de nouveaux traitements et thérapies. Et permettra également aux médecins de disposer d’outils fiables de prévention et d’aide au diagnostic afin d’améliorer la prise en charge des patients.
Arnaud Droit
Parcours |
---|
Université Laval Professeur titulaire au département de médecine moléculaire de la faculté de médecine Juin 2020 Aujourd'hui |
Université Laval Professeur agrégé au département de médecine moléculaire de la faculté de médecine Juin 2016 Aujourd'hui |
Centre de recherche du CHUL/CHUQ Assistant Professor Septembre 2010 à Juin 2016 |
IRCM Research Associate Septembre 2008 à Septembre 2010 |
Genizon BioSciences Senior Bioinformatics developer Septembre 2007 à Septembre 2008 |
Formation :
• Université Laval : post-doc, bioinformatics, proteomics (2007)
• Université Laval : Ph.D, bioinformatics, systems biology (2002-2007)
• Université Paul Sabatier Toulouse III : master, bioinformatics, biochesmistry, molecular and cellular biology (1997-2002)