Les architectures LLM actuelles pourraient ne pas prendre en charge les capacités de résolution de problèmes nécessaires pour étayer une IA de niveau humain, soutiennent les auteurs d’une nouvelle étude.

Une nouvelle analyse suggère que les grands modèles linguistiques (LLM) pourraient atteindre une limite technologique clé. (Crédit image : Curly_photo via Getty Images) Abonnez-vous à notre newsletter
Les contraintes architecturales des outils d’intelligence artificielle (IA) les plus populaires aujourd’hui pourraient limiter leur potentiel d’intelligence future, suggère une nouvelle recherche.
Une étude publiée le 5 février sur le serveur de prépublication arXiv affirme que les grands modèles linguistiques (LLM) modernes sont intrinsèquement sujets à des défaillances dans leur logique de résolution de problèmes, connues sous le nom de « défaillances de raisonnement ».
Sur la base des performances des LLM dans des évaluations telles que Humanity’s Last Exam, certains scientifiques estiment que l’architecture sous-jacente des réseaux neuronaux pourrait un jour mener à un modèle capable d’atteindre une cognition de niveau humain. Bien que l’architecture Transformer rende les LLM extrêmement performants dans des tâches telles que la génération de langage, les chercheurs soutiennent qu’elle entrave également le type de processus logiques fiables nécessaires pour atteindre un véritable raisonnement de niveau humain.
“Les LLM ont fait preuve de capacités de raisonnement remarquables, obtenant des résultats impressionnants dans un large éventail de tâches”, ont déclaré les chercheurs dans l’étude. “Malgré ces progrès, des défaillances de raisonnement importantes persistent, se produisant même dans des scénarios apparemment simples… Cette défaillance est attribuée à une incapacité de planification holistique et de pensée approfondie.”
Limites des LLM
Les LLM sont entraînés sur d’énormes quantités de données textuelles et génèrent des réponses aux invites des utilisateurs en prédisant, mot par mot, une réponse plausible. Ils le font en enchaînant des unités de texte, appelées “tokens”, en se basant sur des modèles statistiques appris à partir de leurs données d’entraînement.
Les Transformers utilisent également un mécanisme appelé “auto-attention” pour suivre les relations entre les mots et les concepts sur de longues chaînes de texte. L’auto-attention, combinée à leurs bases de données d’entraînement massives, est ce qui rend les chatbots modernes si bons pour générer des réponses convaincantes aux invites des utilisateurs.
Cependant, les LLM ne font pas de “pensée” réelle au sens conventionnel. Au lieu de cela, leurs réponses sont déterminées par un algorithme. Pour les tâches longues, en particulier celles qui nécessitent une véritable résolution de problèmes en plusieurs étapes, les Transformers peuvent perdre la trace d’informations clés et revenir aux modèles appris lors de leur entraînement. Cela entraîne des défaillances de raisonnement.
Ce n’est pas du vrai raisonnement au sens humain – c’est toujours de la prédiction du prochain token déguisée en chaîne de pensée.
Federico Nanni, scientifique principal en recherche de données à l’Alan Turing Institute
“Cette faiblesse fondamentale s’étend au-delà des tâches de base, aux compositions de problèmes mathématiques, à la vérification de faits multiples et à d’autres tâches intrinsèquement compositionnelles”, ont déclaré les chercheurs dans l’étude.
Les défaillances de raisonnement expliquent également pourquoi les LLM reviennent souvent à la même réponse à une requête utilisateur, même après qu’on leur ait dit qu’elle est incorrecte, ou produisent une réponse différente à la même question lorsqu’elle est formulée légèrement différemment, même lorsqu’ils sont invités à expliquer leur raisonnement étape par étape.
Federico Nanni, un scientifique principal en recherche de données à l’Alan Turing Institute du Royaume-Uni, affirme que ce que les LLM présentent généralement comme raisonnement n’est que de la décoration.
“Les gens ont compris que si vous dites à un LLM, au lieu de répondre directement, de ‘penser étape par étape’ et d’écrire d’abord un processus de raisonnement, il obtient souvent la bonne réponse”, a déclaré Nanni à Live Science. “Mais c’est une astuce. Ce n’est pas du vrai raisonnement au sens humain – c’est toujours de la prédiction du prochain token déguisée en chaîne de pensée”, a-t-il dit. “Quand nous disons que ces modèles ‘raisonnent’, ce que nous voulons dire en fait, c’est qu’ils rédigent un processus de raisonnement – quelque chose qui ressemble à une chaîne de raisonnement plausible.”
Lacunes dans les benchmarks IA existants
Les méthodes actuelles d’évaluation des performances des LLM sont insuffisantes dans trois domaines clés, ont constaté les chercheurs. Premièrement, les résultats peuvent être affectés par la reformulation d’une invite. Deuxièmement, les benchmarks se dégradent et se contaminent à mesure qu’ils sont utilisés. Et enfin, ils n’évaluent que le résultat, plutôt que le processus de raisonnement qu’un modèle a utilisé pour parvenir à sa conclusion.
Cela signifie que les benchmarks actuels peuvent surestimer considérablement les capacités des LLM et sous-estimer la fréquence de leurs échecs dans une utilisation réelle.

Les performances des LLM pourraient limiter leurs applications dans le monde réel. (Crédit image : da-kuk/Getty Images)
“Notre position n’est pas que les benchmarks sont défectueux, mais qu’ils doivent évoluer”, a déclaré Peiyang Song, co-auteur de l’étude et étudiant en informatique et robotique au Caltech, à Live Science par e-mail. De même, les benchmarks ont tendance à s’infiltrer dans les données d’entraînement des LLM, a déclaré Nanni, ce qui signifie que les LLM ultérieurs apprennent à les tromper.
“De plus, maintenant que les modèles sont déployés en production, l’utilisation elle-même devient une sorte de benchmark”, a déclaré Nanni. “Vous mettez le système devant les utilisateurs et voyez ce qui ne va pas – c’est le nouveau test. Donc oui, nous avons besoin de meilleurs benchmarks, et nous devons moins nous fier à l’IA pour vérifier l’IA. Mais c’est très difficile en pratique, car ces outils sont maintenant intégrés à notre façon de travailler, et il est extrêmement pratique de simplement les utiliser.”
Une nouvelle architecture pour l’AGI ?
Contrairement à d’autres recherches récentes, la nouvelle étude ne soutient pas que les approches de réseaux neuronaux pour l’IA sont une impasse dans la quête de l’intelligence artificielle générale (AGI). Au contraire, les chercheurs comparent cela aux premiers jours de l’informatique, notant que comprendre pourquoi les LLM échouent est la clé pour les améliorer.
Cependant, ils soutiennent que le simple entraînement des modèles sur davantage de données ou leur mise à l’échelle ne résoudront probablement pas le problème à eux seuls. Cela signifie que le développement de l’AGI pourrait nécessiter une approche fondamentalement différente de la manière dont les modèles sont construits.
“Les réseaux neuronaux, et les LLM en particulier, font clairement partie du tableau de l’AGI. Leurs progrès ont été extraordinaires”, a déclaré Song. “Cependant, notre enquête suggère que la mise à l’échelle seule ne résoudra probablement pas toutes les défaillances de raisonnement… [ce qui signifie que] atteindre un raisonnement de niveau humain pourrait nécessiter des innovations architecturales, des modèles du monde plus solides, une formation à la robustesse améliorée et une intégration plus profonde avec le raisonnement structuré et l’interaction incarnée.”
Nanni était d’accord. “D’un point de vue philosophique de l’esprit, je dirais que nous avons essentiellement atteint les limites des Transformers. Ce ne sont pas comme ça qu’on construit un esprit numérique”, a-t-il dit. “Ils modélisent le texte extrêmement bien, au point qu’il est presque impossible de dire si un passage a été écrit par un humain ou une machine. “Mais c’est ce qu’ils sont : des modèles de langage… Il y a une limite à ce que vous pouvez pousser cette architecture.”
THÉMATIQUES
Sourse: www.livescience.com
