Le bot AI Poker est le premier à battre les professionnels du jeu multijoueur

[ad_1]

Crédit: Alexandre Rotenberg / Alamy

Les machines ont encore soulevé les enjeux. Pluribus, un robot surhumain qui joue au poker, a battu les meilleurs joueurs au Texas hold’em no-limit poker à six joueurs, la variante la plus populaire du jeu. C'est la première fois qu'un programme d'intelligence artificielle (IA) bat les joueurs de poker humains d'élite lors d'une partie à plus de deux joueurs.

"Bien que passer de deux à six joueurs puisse sembler progressif, c'est un gros problème", déclare Julian Togelius de l'Université de New York, qui étudie les jeux et l'IA. "L'aspect multijoueur est quelque chose qui n'existe pas du tout dans les autres jeux actuellement étudiés."

L’équipe derrière Pluribus avait déjà construit une intelligence artificielle, appelée Libratus, qui avait battu les professionnels du poker à deux joueurs. Il a construit Pluribus en mettant à jour Libratus et a créé un bot qui nécessite beaucoup moins de puissance de calcul pour jouer des matchs. «Beaucoup de chercheurs en intelligence artificielle ne pensaient pas qu'il était possible de faire cela avec les techniques que nous utilisons», déclare Noam Brown de l'Université Carnegie Mellon à Pittsburgh, Philadelphie, et de Facebook AI Research à New York, qui ont développé Pluribus. avec son collègue de Carnegie, Tuomas Sandholm.

D’autres IA qui ont maîtrisé les jeux humains – tels que Libratus et les robots jouant à GoC et StarCraft II de DeepMind – ont montré qu’ils sont imbattables dans des matchs à somme nulle à deux joueurs. Dans ces scénarios, il y a toujours un gagnant et un perdant et la théorie des jeux offre une meilleure stratégie bien définie.

Cependant, la théorie des jeux est moins utile pour les scénarios impliquant plusieurs parties ayant des intérêts opposés et aucune condition claire gagnant-perdant – celles qui reflètent les défis les plus réels. En résolvant le poker multijoueur, Pluribus jette les bases pour les futurs IA afin de s’attaquer à des problèmes plus complexes de ce type, explique Brown. Il pense que leur succès est un pas en avant vers des applications telles que les négociations automatisées, une meilleure détection de la fraude et des voitures autonomes.

Extra complexe

Pour affronter le Texas sans limite, le Brown et Sandholm ont complètement revu l’algorithme de recherche de Libratus. La plupart des IA en jeu explorent des arbres de décision afin de déterminer le meilleur coup à prendre dans une situation donnée. Libratus a cherché jusqu'à la fin d'une partie avant de choisir une action.

Mais la complexité introduite par des joueurs supplémentaires rend cette tactique impraticable. Le poker nécessite un raisonnement avec des informations cachées – les joueurs doivent élaborer une stratégie en considérant les cartes que leurs adversaires pourraient avoir et ce que leurs adversaires pourraient deviner à propos de leur main en fonction des paris précédents. Mais plus de joueurs compliquent le choix d’une action à un moment donné, car il faut évaluer un plus grand nombre de possibilités.

La principale avancée a été la mise au point d’une méthode qui a permis à Pluribus de faire les bons choix après quelques petits mouvements plutôt que vers la fin de la partie.

Pluribus s’apprend à partir de rien en utilisant une forme d’apprentissage par renforcement similaire à celle utilisée par Alpha AI de Go DeepMind. Il commence par jouer au poker au hasard et s'améliore à mesure qu'il détermine les actions qui rapportent le plus d'argent. Après chaque main, il revient sur son jeu et vérifie s'il aurait pu gagner plus d'argent avec différentes actions, telles que relancer plutôt que de miser sur un pari. Si les alternatives conduisent à de meilleurs résultats, il sera plus probable de choisir un thème à l'avenir.

En jouant des trillions de mains de poker contre lui-même, Pluribus a créé une stratégie de base sur laquelle il s’appuie dans les matchs. À chaque point de décision, il compare l’état du jeu à son plan et cherche quelques coups pour voir le déroulement de l’action. Il décide ensuite s'il peut ou non l'améliorer.

Parce qu’elle apprenait à jouer sans intervention humaine, l’intelligence artificielle a opté pour quelques stratégies que les joueurs humains ont tendance à ne pas utiliser, telles que le «donk betting»: commencer un tour en misant ou en relançant, à la fin du dernier tour de mise avec un appel , qui correspond à la mise d'un autre joueur.

Parc d'IA

Le succès de Pluribus repose en grande partie sur son efficacité. Lors de la lecture, il ne fonctionne que sur deux unités centrales (CPU). En revanche, AlphaGo, la version originale de DeepMind AlphaZero, utilisait 1 920 processeurs et 280 unités de traitement graphique pour exécuter son algorithme de recherche lorsqu’il battait pour la première fois le meilleur joueur de Go au monde en 2016. Libratus a utilisé 100 processeurs lors de ses matches de 2017 contre les meilleurs professionnels. Pluribus prend environ 20 secondes pour jouer une main, soit environ deux fois plus vite que les humains professionnels.

Les jeux se sont révélés être un excellent moyen de mesurer les progrès en matière d'intelligence artificielle, car les bots peuvent être marqués contre les meilleurs hommes – et objectivement être salués comme surhumains s'ils triomphent. Mais Brown pense que les IA sont plus grands que leurs parcs. "C'était le dernier défi restant au poker", dit-il.

Cependant, Togelius pense qu'il reste encore beaucoup à faire pour les chercheurs et les jeux en intelligence artificielle. «Il y a beaucoup de territoire inexploré», dit-il. Pour commencer, peu d'IA maîtrisent plus d'un jeu. Pour le faire, il leur faudrait démontrer une capacité générale plutôt qu'une compétence de niche. AlphaZero a appris à jouer au Go, aux échecs et au shogi – une forme d’échecs japonais – mais un à la fois. Par exemple, un réseau de neurones formé par AlphaZero pour jouer à Go ne peut pas jouer aux échecs, et inversement. En d'autres termes, une seule instance de l'IA ne peut pas jouer à Go, aux échecs et au shogi, comme le ferait un humain.

Et bien sûr, il n’ya pas que des jeux, dit Togelius. «Il y a aussi leur conception. Un grand défi d'IA s'il en est un. "

Inscrivez-vous pour le quotidien Briefing Nature Courriel

Restez au courant de ce qui compte dans la science et pourquoi, choisi à la main La nature et d'autres publications dans le monde.

S'inscrire

[ad_2]