Diplomacy utilisé pour tester la capacité des IA à mentir et à manipuler

LIBERTOR · Message par **LIBERTOR** » sam. déc. 21, 2024 7:55 pm

Dans une vidéo récente traitant de la capacité des IA de type LLM (Large Language Model / Grand Modèle de Langage) à mentir et à manipuler, j'ai eu la surprise de découvrir que le jeu Diplomacy était utilisé pour tester les IA.
J'ai calé la vidéo sur le passage concerné.
https://youtu.be/cw9wcNKDOtQ?feature=shared&t=278

Cette étude publiée dans Science et mentionnée dans la vidéo, conclue que "sur les 40 parties de Diplomacy jouées en ligne anonymement [avec négociations], Cicero a atteint plus du double du score moyen des joueurs humains et a été classé dans le top 10 % des joueurs qui ont joué plus d'un match."

"Human-level play in the game of Diplomacy by combining language models with strategic reasoning"
https://www.science.org/doi/10.1126/science.ade9097

OrangeCar · Message par **OrangeCar** » dim. déc. 22, 2024 7:49 am

Le "souci" est que cette progression de l'IA sur Diplomacy va un peu "tuer" notre jeu comme pour les échecs.
Un jour on détectera des tricheurs qui ont utilisé l'IA et comment pourra -t- on y faire face ?

Truk · Message par **Truk** » dim. déc. 22, 2024 10:42 am

Oh le jeu d'échecs ne m'a pas l'air vraiment mort, au contraire !

OrangeCar · Message par **OrangeCar** » dim. déc. 22, 2024 11:32 am

En effet, je n'aurais pas du utiliser ce mot.
Mais ils passent leur temps a soupçonner la triche ( quand c'est en ligne )

LIBERTOR · Message par **LIBERTOR** » dim. déc. 22, 2024 12:30 pm

Les super calculateurs arrivent au bout du jeu d'échecs classique en effet.
Mais de nouvelles règles ont été créées comme le placement libre des pièces >= 3pts par exemple Elles multiplient les possibilités et réduisent d'autant la capacité des super calculateurs à recenser les coups possibles.
Bien sûr tout cela est vrai tant que les ordinateurs quantiques ne sont pas opérationnels.

LIBERTOR · Message par **LIBERTOR** » dim. déc. 22, 2024 12:36 pm

OrangeCar a écrit : ↑dim. déc. 22, 2024 7:49 am Un jour on détectera des tricheurs qui ont utilisé l'IA et comment pourra -t- on y faire face ?

La difficulté c'est d'arriver à le détecter.
Heureusement nous avons encore du temps pour y réfléchir.
En attendant l'IA peut nous générer des cartes.

Mr_Noob · Message par **Mr_Noob** » dim. déc. 22, 2024 2:29 pm

LIBERTOR a écrit : ↑sam. déc. 21, 2024 7:55 pm Cette étude publiée dans Science et mentionnée dans la vidéo, conclue que "sur les 40 parties de Diplomacy jouées en ligne anonymement [avec négociations], Cicero a atteint plus du double du score moyen des joueurs humains et a été classé dans le top 10 % des joueurs qui ont joué plus d'un match."

La chaîne youtube Diplostrats avait à l'époque publié pas mal de vidéos sur cette expérimentation, sur Cicero et (env. 6 mois plus tôt, si je me rappelle bien) sur l'étape précédente du projet (développement d'une IA pour gunboat, "Diplodocus" de son p'tit nom - aux perf indubitablement supérieures à celles des humains).
Je suis surpris qu'on en ait pas parlé sur diplomania. L'info avait été énormément relayée, y compris au-delà de la sphère de Diplomacy. Ça avait été un coup de pub pour Meta (Facebook) qui avait tenté de jouer sur la filiation Deep Blue -> AlphaGo -> Cicero (en plus de tirer des enseignements pour leur propre/futur business qui n'ont rien à voir avec le jeu Diplomacy proprement-dit).

Ce que j'en avais retenu :

1. Pas mal de critiques avaient été émises sur le fait que les phases de négo écrites de 5' favorisaient évidemment l'IA par rapport aux joueurs humains.

2. Autant il était assez clair que l'IA retenue pour le gunboat (Diplodocus) était clairement plus forte que pratiquement n'importe quel joueur humain*, autant, pour Cicero, faire mieux que 90% des joueurs ayant joué plus d'une partie, vu le déroulement de l'expérience, c'était quand même très loin de ce que IBM et Google avait accompli aux échecs et au Go : battre à la régulière le meilleur joueur du monde de l'époque. Mais leur objectif était malgré tout largement atteint (et reste quand même impressionnant).
*d'ailleurs, si on revient à l'IA version gunboat encore antérieure à Diplodocus, celles que Meta avait mis à disposition sur Webdiplomacy pour la variante France vs Autriche, elle culminait déjà à 90% de victoire avec la France et plus de 95% pour l'Autriche (de mémoire)... et pourtant, il y avait en permanence des gars qui voulaient se mesurer à elle, dont certains très acharnés).

3. Les IA pompent énormément de ressources, et même si Meta les a laissées aux admin de WebDip après avoir bouclé leur projet, bin... WebDip ne peut pas les faire tourner dans les même conditions
.les bot de WebDip en gunboat classique, FvA et GvI sont retombées à un niveau assez médiocre
.il est possible, de temps en temps, d'avoir du bol et de tomber sur une partie négo contre des versions lights de Cicero. J'ai essayé il y a un an et j'ai laissé tomber au bout de quelques années (c'était chiant comme la pluie). L'Admin de WebDip lançait les parties au compte-goutte, et cherchait - en jouant sur différent paramètres - à trouver un équilibre entre performance de l'IA et sobriété (à ce jour, je ne crois pas qu'il l'ait trouvé).

4. (Je crois qu'il s'agissait de Diplodocus, pas de Cicero, mais) c'était intéressant de lire quelque part que, parmi tous les modèles développés en interne et mis en concurrence avant test à grande échelle contre des humains, et bien Diplodocus, qui allait éclater presque tous les humains, n'était pas le meilleur contre les autres IA, loin s'en faut. Mais la meilleure IA, celle qui battait toutes les autres, a eu des résultats catastrophiques contre les humains : son comportement n'était pas perçu de la même manière par les joueurs humains (qui ne voulaient pas s'allier avec elle, ont préféré l'attaquer, que sais-je) et par les autres IA (qui finissaient par perdre contre elle).
C'est probablement la différence entre Diplomacy et les jeux à un contre un, aussi nobles soient-ils. Ça ne sert à rien de joueur les meilleurs coups s'ils n'inspirent pas confiance aux autres joueurs (AlphaGo a joué des coups qui laissaient les observateurs humains perplexes, voire amusés... et finissait quand même par torcher Lee Sedol, considéré comme l'un des meilleurs joueurs du siècle).
Et c'est probablement pour ça que Meta et d'autres ont choisi Diplomacy comme terrain d'expérimentation. C'était l'étape suivante dans le développement d'une IA qui doit non seulement analyser un environnement complexe, mais aussi prendre des décisions ou pondre des messages qui soient susceptibles de provoquer (chez les autres) des réactions qui soient favorables aux objectifs assignés. Enfin, je crois.

Mr_Noob · Message par **Mr_Noob** » dim. déc. 22, 2024 6:57 pm

Y'm'semblait que ce fil portait un autre titre au moment où j'y ai réagi la 1re fois…
Puisque la notion de mensonge est évoquée, il me semblait avoir lu (à vérifier) que globalement, Cicero parvenait à ses fins en recourant moins au mensonge que ses partenaires humains... mais que malgré tout, il en est venu à mentir quand ça lui paraissait utile.
Euh… si tant est que "mentir" puisse avoir un sens dans ce cas-là :
comment connaître "l'intention réelle" (Var-Gal ou Var-Ukr) d'une IA russe au moment où elle discute d'une DMZ à l'Autriche ? Quand fige-t-elle sa décision ? Comment est traitée la décision qui consiste à informer l'Autriche (ou pas) d'un changement de décision tactique ou stratégique ?
Le fait d'envoyer des messages mutuellement exclusif à deux interlocuteurs, c'est affirmer quelque chose à l'un des deux en ayant déjà planifié d'agir autrement ? Ou c'est mener deux discussions en parallèle, qui sont complètement décorrélées de la prise de décision tactique ou stratégique ?
Pour avoir testé un tout petit peu, notamment en racontant des bobards ou en trollant certaines versions light de Cicero, et bien notre ami virtuel n'est pas rancunier du tout. En tout cas, l'échantillon de "réactions à bobards" dont il s'est inspiré pour me répondre avait l'air plutôt ouvert et compréhensif, j'ai trouvé.
Du coup (et sans présager de comment l'IA interagit avec un interlocuteur dont les actes ont contredit les messages… question cruciale, en fait), l'IA ment-elle parce qu'elle voit dans les milliers de parties qu'elle a ingurgitées qu'on ment à ce jeu et qu'elle incorpore "mécaniquement" ce mode de communication à sa palette (auquel cas, plus les IA interagissent avec les humains, moins il faut s'étonner qu'elles reproduisent leurs comportements et leurs biais) ? Ou est-ce qu'elle ment parce que, toute chose égale par ailleurs, c'est de toute façon la solution qui lui aurait paru optimale à ce moment-là ?

Mr_Noob · Message par **Mr_Noob** » sam. déc. 28, 2024 3:59 pm

LIBERTOR a écrit : ↑dim. déc. 22, 2024 12:30 pm Les super calculateurs arrivent au bout du jeu d'échecs classique en effet.
Mais de nouvelles règles ont été créées comme le placement libre des pièces >= 3pts par exemple Elles multiplient les possibilités et réduisent d'autant la capacité des super calculateurs à recenser les coups possibles.
Bien sûr tout cela est vrai tant que les ordinateurs quantiques ne sont pas opérationnels.

C'est le défi auquel était confrontés les développeurs lorsqu'ils se sont attaqués au jeu de go : un super calculateur, comme ceux qui dépassaient déjà les humains aux échecs, n'était pas la solution (vu le nombre de coups possibles incomparablement plus élevés à ce jeu).
AlphaGo (il y a 8 ans déjà) devait donc définir lui-même dans quelles branches de "l'arbre des possibles" il avait intérêt à concentrer ses capacités de calcul (en particulier sur la base de ses anticipations de ce que jouerait son adversaire).
Ce qui différencie probablement le go joué dans ces conditions des échecs joués comme tu le décris (aussi appelés variante "Random Fischer") c'est que dans le 2ème cas, avec 960 configurations de départ possibles, l'IA ne pourrait plus autant s'appuyer sur un historique de parties pour anticiper le comportement de l'adversaire.

J'aime bien le parallèle avec Diplomacy.
Bobby Fischer, au sujet de cette variante qu'il appréciait particulièrement :
"Je veux conserver l'essence de notre jeu tel quel mais démarrer avec des positions variées éviterait l'écueil de la mémorisation et de la récitation comme c'est actuellement le cas."
C'est un peu le point de vue de certains afficionados des variantes de cartes (à supposer que la carte est bonne). Pas nécessairement besoin d'une connaissance encyclopédique des ouvertures, des alliances ou de la carte proprement-dite, ni d'une connaissance approfondie du méta en vigueur dans la communauté (si partie en gunboat). "Juste" savoir bien jouer le jeu et les joueurs.

Forum du site diplomania-gen.fr

Diplomacy utilisé pour tester la capacité des IA à mentir et à manipuler

Diplomacy utilisé pour tester la capacité des IA à mentir et à manipuler

Re: Diplomacy utilisé pour tester la capacité des IA à mentir et à manipuler

Re: Diplomacy utilisé pour tester la capacité des IA à mentir et à manipuler

Re: Diplomacy utilisé pour tester la capacité des IA à mentir et à manipuler

Re: Diplomacy utilisé pour tester la capacité des IA à mentir et à manipuler

Re: Diplomacy utilisé pour tester la capacité des IA à mentir et à manipuler

Re: Diplomacy utilisé pour tester la capacité des IA à mentir et à manipuler

Re: Diplomacy utilisé pour tester la capacité des IA à mentir et à manipuler

Re: Diplomacy utilisé pour tester la capacité des IA à mentir et à manipuler