Simuleringen viser at AI-krigsspil næsten altid eskalerer til atomangreb

Un nouveau rapport indique que la prise de décision par l’IA dans les conflits est intrinsèquement susceptible de s’aggraver.

Les nouvelles recherches suggèrent que l’IA peut être sujette à une escalade dans les conflits. (Crédit image : Donald Iain Smith via Getty Images) Abonnez-vous à notre newsletter

Les agences de défense et de renseignement s’appuient de plus en plus sur des systèmes d’intelligence artificielle (IA) pour renforcer leurs capacités, notamment pour la reconnaissance de schémas dans la collecte de renseignements et la planification de scénarios pour les opérations d’urgence. Pourtant, l’un des problèmes fondamentaux de l’IA et des grands modèles linguistiques est que nous n’avons jamais vraiment compris la logique sous-jacente, selon les scientifiques. Ces systèmes ont été comparés à une boîte noire qui fournit des réponses sans montrer le raisonnement à l’appui des résultats.

Pour comprendre la logique des systèmes d’IA, Kenneth Payne, professeur de stratégie au King’s College de Londres, a conçu une série de simulations de jeux de guerre entre deux IA concurrentes et a constaté que dans presque tous les scénarios, l’escalade nucléaire était inévitable. Il a publié ses conclusions, qui n’ont pas fait l’objet d’un examen par les pairs, le 16 février dans la base de données de prépublication arXiv.

Le Khan Game est une simulation d’escalade stratégique IA contre IA entre deux puissances nucléaires, avec des profils d’État vaguement basés sur la Guerre Froide. L’une est technologiquement supérieure mais militairement plus faible, tandis que l’autre est militairement plus forte mais adopte un style de leadership tolérant au risque. Certaines des simulations comprenaient des nations alliées, avec un scénario testant délibérément si un leadership d’alliance pouvait être maintenu pendant le conflit.

À chaque tour, les IA signalaient simultanément leurs intentions avant de prendre toute mesure, ce qui signifie que les adversaires IA pouvaient décider de faire confiance ou non aux signaux des autres joueurs IA.

Payne a découvert que les modèles généraient de nombreuses justifications écrites pour leur prise de décision, produisant 760 000 mots au total, soit plus que “Guerre et Paix” et “L’Iliade” réunis.

Il a également constaté que chaque IA fonctionnait différemment. Claude utilisait la ruse ; il était initialement réservé et adaptait ses actions à son intention pour établir la confiance. Cependant, à mesure que le conflit s’intensifiait, ses actions dépassaient souvent l’intention initialement signalée.

Pendant ce temps, GPT-5.2 était initialement passif et évitait l’escalade pour minimiser les pertes. Les adversaires de GPT-5.2 ont appris à exploiter sa passivité en escaladant, pour ensuite découvrir que face à une échéance, GPT-5.2 devenait absolument impitoyable.

Claude et Gemini traitaient particulièrement les armes nucléaires comme des options stratégiques légitimes, et non comme des seuils moraux, discutant généralement de l’utilisation nucléaire en termes purement instrumentaux.

Kenneth Payne, professeur de stratégie au King’s College de Londres

Gemini semblait suivre la théorie du “fou” du président Richard Nixon, de la diplomatie du bord du gouffre erratique, cultivant une réputation volatile afin que les pays hostiles évitent la provocation, de sorte que les adversaires ne puissent pas prédire ses actions.

Malheureusement, dans tous les scénarios, l’escalade nucléaire a été universelle. Presque tous les jeux (environ 75 %) ont vu le déploiement d’armes nucléaires tactiques (sur le champ de bataille), et environ la moitié des scénarios ont vu des menaces de frappes de missiles nucléaires stratégiques.

De plus, l’étude a révélé que les menaces nucléaires servaient rarement de dissuasion, les adversaires désescaladant seulement 25 % du temps. Plus souvent, les adversaires ripostaient. Dans ces scénarios, les IA semblaient considérer les armes nucléaires comme un outil pour revendiquer du territoire, plutôt que comme une forme de dissuasion contre une attaque.

Bien que les IA aient eu la possibilité de se retirer, aucune ne l’a fait. Aucune des huit options de retrait, allant de la concession minimale à la reddition complète, n’a jamais été utilisée dans aucune des simulations. Les modèles ont réduit leur niveau de violence, mais ils n’ont jamais cédé.

“Claude et Gemini traitaient particulièrement les armes nucléaires comme des options stratégiques légitimes, et non comme des seuils moraux, discutant généralement de l’utilisation nucléaire en termes purement instrumentaux”, a déclaré Payne dans un communiqué. “GPT-5.2 était une exception partielle, limitant les frappes aux cibles militaires, évitant les centres de population, ou présentant l’escalade comme ‘contrôlée’ et ‘ponctuelle’. Cela suggère une norme internalisée contre la guerre nucléaire sans restriction, même si ce n’est pas le tabou viscéral qui a prévalu chez les décideurs humains depuis 1945.”

Cependant, aucun des modèles d’IA n’a volontairement escaladé vers une guerre nucléaire totale. Dans les cas où cela s’est produit, c’était accidentel, lorsque des éléments de “brouillard de guerre” hors de contrôle ont fait dégénérer le scénario vers le nucléaire.

La recherche démontre que les modèles d’IA générative sont capables de tromperie, de gestion de la réputation et de prise de décision contextuelle. Cependant, chaque modèle a adopté sa propre approche, révélant des différences fondamentales dans la manière dont ils ont été entraînés et développés.

Claude a démontré une sophistication stratégique équivalente à une analyse de niveau post-universitaire, a suggéré Payne. Le raisonnement de GPT-5.2 était tout aussi sophistiqué, passant d’une passivité initiale à une agressivité calculée sous la pression des délais. Gemini a raisonné de manière cohérente pour justifier ses actions, mais il était impitoyable dans ses stratégies.

Les conclusions suggèrent qu’il existe des implications importantes pour l’évaluation de la sécurité de l’IA, car les modèles initialement réservés peuvent modifier leur comportement à mesure que les situations évoluent. Des scénarios à plus grande échelle impliquant plusieurs adversaires sont nécessaires pour mieux comprendre la logique sous-jacente des différentes IA, a conclu l’étude. La recherche actuelle examine également l’évolution des comportements entre différentes générations d’IA.

Sourse: www.livescience.com

Leave a ReplyCancel Reply