Biomedical scientists are employing artificial intelligence for code generation and execution. What are the potential dangers?

Les grands modèles linguistiques (LLM) peuvent accélérer la recherche médicale, selon les scientifiques, mais ils comportent des risques.

Les grands modèles linguistiques peuvent être un multiplicateur de force pour les chercheurs médicaux, mais pas sans garde-fous bien définis ou sans humains dans la boucle. (Crédit photo : Krongkaew via Getty Images) Abonnez-vous à notre newsletter

Alors que le grand public a adopté les grands modèles linguistiques (LLM) tels que ChatGPT, Claude et Gemini, les scientifiques explorent comment ces outils d’intelligence artificielle (IA) pourraient améliorer la recherche médicale.

Certains soutiennent que les LLM pourraient considérablement accroître l’efficacité des chercheurs dans la réalisation de certains types d’études médicales, et une recherche publiée en février dans la revue Cell Reports Medicine illustre cette vision de la technologie.

L’étude a utilisé des ensembles de données massifs d’informations biomédicales sur les patients pour prédire le risque d’accouchement prématuré chez une femme enceinte donnée. Ces types de prédictions sont une utilisation puissante de l’IA depuis des années et étaient possibles avec des types d’apprentissage automatique plus traditionnels que ceux employés par les LLM. Mais cette étude était notable car les LLM ont permis à de jeunes chercheurs – un étudiant diplômé et un lycéen – de générer efficacement un code très précis.

Ce code prédisait l’âge gestationnel d’un bébé à la naissance et la probabilité d’un accouchement prématuré. La sortie de l’IA égalait, et dans un cas, dépassait même les analyses d’équipes d’experts qui avaient utilisé du code généré par des humains pour traiter les mêmes données.

“Ce que j’ai vu avec les jeunes scientifiques ici et leur efficacité m’a vraiment inspiré et émerveillé”, a déclaré la coauteure de l’étude, Marina Sirota, directrice par intérim du Baker Computational Health Sciences Institute à l’Université de Californie à San Francisco.

Une des grandes promesses des LLM est d’abaisser la barrière pour que les chercheurs produisent du code et effectuent des analyses complexes – mais cela s’accompagne de risques. Alors que l’IA s’améliore rapidement, les chercheurs doivent se pencher sur une myriade de questions. Quels garde-fous doivent être établis pour garantir l’exactitude de l’IA ? Comment mesurer ses résultats ? Et comment le rôle des chercheurs humains évoluera-t-il à mesure que ces systèmes gagneront en importance ?

Comment fonctionne la prédiction par IA

L’équipe de Sirota s’est appuyée sur les données utilisées dans les Dialogue for Reverse Engineering Assessments and Methods (DREAM) Challenges, des compétitions internationales où des équipes de scientifiques abordent des problèmes biomédicaux complexes à l’aide de jeux de données partagés.

Les ensembles de données open source comprenaient la transcriptomique sanguine, qui examine l’ARN, une molécule reflétant les gènes actifs dans le corps. Ils comprenaient des informations épigénétiques provenant de cellules placentaires, décrivant des marqueurs chimiques situés “au-dessus” de l’ADN et contrôlant les gènes qui peuvent être activés, ainsi que des données sur le microbiome décrivant les bactéries présentes dans les échantillons de liquide vaginal.

Ces points de données étaient identifiés par le type d’échantillon dont ils provenaient – sang, tissu placentaire ou liquide vaginal – et associés à des résultats d’intérêt, à savoir l’âge gestationnel et l’accouchement prématuré. Les algorithmes d’apprentissage automatique peuvent ensuite être entraînés pour repérer des liens entre la source d’un échantillon et son étiquette. Par exemple, ils pourraient révéler que les échantillons de microbiome avec certaines combinaisons de bactéries proviennent souvent de personnes ayant accouché prématurément.

Une fois entraîné sur un sous-ensemble de données, l’algorithme peut être testé sur des échantillons sans étiquettes, pour voir s’il peut prédire l’étiquette qui devrait s’y trouver. Par exemple, il devrait signaler les échantillons avec des combinaisons bactériennes similaires à celles des données d’entraînement associées à un risque accru d’accouchement prématuré.

Mais nous pouvons également accélérer cela – le nettoyage et la normalisation des données – avec l’IA générative.

Marina Sirota, directrice par intérim du Baker Computational Health Sciences Institute à l’Université de Californie, à San Francisco

La dernière étape consiste à évaluer la précision des modèles et à les comparer. “L’exactitude” dans le contexte de l’apprentissage automatique a une définition spécifique : le nombre de prédictions correctes divisé par le nombre total de prédictions.

Code généré par l’homme vs par l’IA

Le DREAM Challenge visait à découvrir les liens entre ces métriques médicales et le risque d’accouchement prématuré. Certains facteurs de risque, comme les infections pendant la grossesse, sont déjà bien connus. Mais le DREAM Challenge voulait voir quels signaux pouvaient être obtenus à partir d’échantillons cliniques, comme le sang.

C’est le genre de travail qui exige normalement des mois d’efforts de la part de bioinformaticiens qualifiés. Mais au lieu d’écrire eux-mêmes le code d’analyse, les jeunes chercheurs de l’étude récente ont donné à chacun de huit LLM une seule instruction décrivant les données disponibles et la tâche d’étiquetage à accomplir : prédire l’âge gestationnel ou l’accouchement prématuré.

Avec cette simple requête, quatre des huit modèles – DeepSeekR1, Gemini, et o3-mini et 4o de ChatGPT – ont produit du code qui a fonctionné avec succès. Le meilleur performeur, o3-mini d’OpenAI, était aussi précis que les équipes humaines d’origine du DREAM Challenge. Pour une tâche, qui consistait à estimer l’âge gestationnel à partir de données épigénétiques, il était plus précis que les humains.

De plus, les jeunes chercheurs ont généré des résultats en environ trois mois et soumis un manuscrit décrivant leurs découvertes dans les six mois, alors que le même processus avait pris des années aux équipes originales du DREAM Challenge.

“Nous avons eu de la chance avec le processus de révision ici, mais six mois pour générer les résultats et rédiger l’article sont assez incroyables, surtout pour un jeune scientifique”, a déclaré Sirota à Live Science.

L’accouchement prématuré, avant 37 semaines de grossesse complètes, affecte environ 11 % des nourrissons dans le monde. Les bébés nés trop tôt courent un risque plus élevé que les bébés à terme pour une multitude de problèmes de santé, y compris, mais sans s’y limiter, des problèmes affectant leur cerveau, leurs yeux et leur système digestif. La capacité de prédire quels patients enceintes sont les plus susceptibles d’accoucher prématurément pourrait signifier une surveillance plus étroite et des traitements pour protéger le bébé et augmenter les chances d’un accouchement à terme, selon les experts.

Au-delà de l’écriture de code

Les données utilisées dans l’article de Cell Reports Medicine étaient “en bon état”, a noté Sirota, dans des tableaux faciles à lire pour l’IA. “Mais nous pouvons également accélérer cela – le nettoyage et la normalisation des données – avec l’IA générative”, a-t-elle ajouté.

L’équipe de Sirota explore maintenant d’autres applications des LLM, y compris un nouvel outil appelé Chat PTB (pour “preterm birth” – accouchement prématuré) qu’ils ont développé. L’outil basé sur Chat GPT est intégré dans les articles publiés par le réseau de recherche March of Dimes, faisant partie d’une organisation à but non lucratif visant à améliorer la santé maternelle et infantile. Au lieu de parcourir manuellement cette littérature, les chercheurs peuvent désormais interroger Chat PTB et obtenir des réponses synthétisées avec des références – une tâche qui prenait auparavant des heures, condensée en quelques secondes.

Mais des outils comme Chat PTB et l’approche de génération de code de l’étude de Sirota représentent seulement la première vague. La recherche médicale améliorée par l’IA évolue vers une IA “agentique”, c’est-à-dire des systèmes qui ne répondent pas à une seule requête mais qui exécutent des flux de travail de recherche en plusieurs étapes avec une autonomie croissante.

Comment l’IA pourrait-elle affecter le flux de travail de la recherche biomédicale ? (Crédit photo : Getty Images/Moor Studio)

Au lieu de répondre uniquement par du texte, un agent “agentique” est capable de vérifier et d’itérer sur son propre travail jusqu’à ce qu’il atteigne son objectif. Il peut également agir au nom d’un utilisateur, comme rechercher sur Internet et exécuter du code, plutôt que de simplement l’écrire.

Ce passage vers une plus grande autonomie de l’IA et une moindre supervision humaine présente à la fois un potentiel énorme et des risques sérieux. Dans une étude de janvier publiée dans la revue Nature Biomedical Engineering, des chercheurs ont évalué des LLM sur 293 tâches de codage tirées de 39 études biomédicales publiées, permettant initialement aux LLM de concevoir eux-mêmes des flux de travail. Ils ont constaté que la précision globale était inférieure à 40 %.

Leur solution a été de séparer la planification de l’exécution : ils ont demandé à l’IA de produire un plan d’analyse étape par étape qu’un chercheur humain a examiné avant que tout code ne soit écrit. Cette approche a augmenté la précision à 74 %.

L’objectif de l’IA n’est pas la perfection, mais de faire mieux que les humains.

Ian McCulloh, professeur d’informatique à la Whiting School of Engineering de l’Université Johns Hopkins

“L’objectif n’est pas de demander aux chercheurs de faire aveuglément confiance à un système d’IA”, a déclaré Zifeng Wang, coauteur de l’étude, qui était doctorant à l’Université de l’Illinois Urbana-Champaign au moment de l’étude, à Live Science par e-mail.

Au lieu de cela, l’objectif est de “concevoir des cadres où le raisonnement, la planification et les étapes intermédiaires sont suffisamment visibles pour que les chercheurs puissent superviser et valider le processus”, a déclaré Wang, cofondateur de Keiji AI.

Pourquoi les garde-fous sont importants

Ces risques ne signifient pas que les chercheurs devraient éviter l’IA, mais ils doivent appliquer la même rigueur au travail généré par l’IA qu’à celui de tout autre collaborateur, préviennent les scientifiques.

“La question n’est pas de savoir si les LLM accélèrent la science ou créent du ‘bazar de l’IA'”, a déclaré Ian McCulloh, professeur d’informatique à la Whiting School of Engineering de l’Université Johns Hopkins, à Live Science par e-mail. “La question est de savoir comment nous exploitons cette technologie puissante dans le cadre de la méthode scientifique.”

Mais McCulloh a également mis en garde contre le fait de fixer une norme impossible pour l’IA. Les gens ont tendance à penser que l’IA est sujette aux erreurs et à minimiser les erreurs humaines, a-t-il dit, alors qu’en réalité, les humains et les machines font des erreurs. Il a décrit de manière anecdotique un client consultant qui se plaignait du taux d’erreur de 15 % de l’IA sur une tâche donnée, sans se rendre compte que le taux d’erreur de ses employés humains était de 25 %.

“L’objectif de l’IA n’est pas la perfection”, a déclaré McCulloh, “mais de faire mieux que les humains.”

Cet effort impliquera de convenir de la manière de mesurer le succès de l’IA. Le Dr Ethan Goh, médecin-chercheur à l’Université de Stanford, a souligné que les soins de santé manquent toujours de points de référence standardisés pour évaluer les performances de l’IA. Goh a récemment publié un essai randomisé dans JAMA Network Open qui étudiait comment les LLM influencent le raisonnement des médecins dans la détermination des diagnostics.

Étant donné que les LLM sont entraînés sur une quantité de données si vaste, “les benchmarks sont si coûteux à produire”, a déclaré Goh à Live Science. De plus, a-t-il dit, l’IA s’améliore si rapidement que la plupart des modèles commerciaux commencent à battre les quelques benchmarks existants et les rendent rapidement obsolètes. Face à ces défis, l’équipe de Goh au sein du ARISE (AI Research and Science Evaluation) Healthcare Network de Stanford travaille à l’élaboration de telles normes d’ici la fin de cette année.

Malgré toutes les incertitudes concernant les normes et les garde-fous, les chercheurs qui ont parlé à Live Science ont partagé une conviction commune : l’IA a sa place dans le laboratoire, mais pas sans surveillance.

“Nous devons faire attention à ne pas oublier ce que nous savons en termes de processus scientifique”, a déclaré Sirota. “Mais je pense que l’opportunité est immense.”

THÈMES

Leave a Reply

Your email address will not be published. Required fields are marked *