LIBERTOR a écrit : ↑sam. déc. 21, 2024 7:55 pm
Cette étude publiée dans
Science et mentionnée dans la vidéo, conclue que "sur les 40 parties de
Diplomacy jouées en ligne anonymement [avec négociations], Cicero a atteint plus du double du score moyen des joueurs humains et a été classé dans le top 10 % des joueurs qui ont joué plus d'un match."
La chaîne youtube Diplostrats avait à l'époque publié pas mal de vidéos sur cette expérimentation, sur Cicero et (env. 6 mois plus tôt, si je me rappelle bien) sur l'étape précédente du projet (développement d'une IA pour gunboat, "Diplodocus" de son p'tit nom - aux perf indubitablement supérieures à celles des humains).
Je suis surpris qu'on en ait pas parlé sur diplomania. L'info avait été énormément relayée, y compris au-delà de la sphère de Diplomacy. Ça avait été un coup de pub pour Meta (Facebook) qui avait tenté de jouer sur la filiation Deep Blue -> AlphaGo -> Cicero (en plus de tirer des enseignements pour leur propre/futur business qui n'ont rien à voir avec le jeu Diplomacy proprement-dit).
Ce que j'en avais retenu :
1. Pas mal de critiques avaient été émises sur le fait que les phases de négo écrites de 5' favorisaient évidemment l'IA par rapport aux joueurs humains.
2. Autant il était assez clair que l'IA retenue pour le gunboat (Diplodocus) était clairement plus forte que pratiquement n'importe quel joueur humain*, autant, pour Cicero, faire mieux que 90% des joueurs
ayant joué plus d'une partie, vu le déroulement de l'expérience, c'était quand même très loin de ce que IBM et Google avait accompli aux échecs et au Go : battre à la régulière le meilleur joueur du monde de l'époque. Mais leur objectif était malgré tout largement atteint (et reste quand même impressionnant).
*d'ailleurs, si on revient à l'IA version gunboat encore antérieure à Diplodocus, celles que Meta avait mis à disposition sur Webdiplomacy pour la variante France vs Autriche, elle culminait déjà à 90% de victoire avec la France et plus de 95% pour l'Autriche (de mémoire)... et pourtant, il y avait en permanence des gars qui voulaient se mesurer à elle, dont certains très acharnés).
3. Les IA pompent énormément de ressources, et même si Meta les a laissées aux admin de WebDip après avoir bouclé leur projet, bin... WebDip ne peut pas les faire tourner dans les même conditions
.les bot de WebDip en gunboat classique, FvA et GvI sont retombées à un niveau assez médiocre
.il est possible, de temps en temps, d'avoir du bol et de tomber sur une partie négo contre des versions lights de Cicero. J'ai essayé il y a un an et j'ai laissé tomber au bout de quelques années (c'était chiant comme la pluie). L'Admin de WebDip lançait les parties au compte-goutte, et cherchait - en jouant sur différent paramètres - à trouver un équilibre entre performance de l'IA et sobriété (à ce jour, je ne crois pas qu'il l'ait trouvé).
4. (Je crois qu'il s'agissait de Diplodocus, pas de Cicero, mais) c'était intéressant de lire quelque part que, parmi tous les modèles développés en interne et mis en concurrence avant test à grande échelle contre des humains, et bien Diplodocus, qui allait éclater presque tous les humains, n'était pas le meilleur contre les autres IA, loin s'en faut. Mais la meilleure IA, celle qui battait toutes les autres, a eu des résultats catastrophiques contre les humains : son comportement n'était pas perçu de la même manière par les joueurs humains (qui ne voulaient pas s'allier avec elle, ont préféré l'attaquer, que sais-je) et par les autres IA (qui finissaient par perdre contre elle).
C'est probablement la différence entre Diplomacy et les jeux à un contre un, aussi nobles soient-ils. Ça ne sert à rien de joueur les meilleurs coups s'ils n'inspirent pas confiance aux autres joueurs (AlphaGo a joué des coups qui laissaient les observateurs humains perplexes, voire amusés... et finissait quand même par torcher Lee Sedol, considéré comme l'un des meilleurs joueurs du siècle).
Et c'est probablement pour ça que Meta et d'autres ont choisi Diplomacy comme terrain d'expérimentation. C'était l'étape suivante dans le développement d'une IA qui doit non seulement analyser un environnement complexe, mais aussi prendre des décisions ou pondre des messages qui soient susceptibles de provoquer (chez les autres) des réactions qui soient favorables aux objectifs assignés. Enfin, je crois.