Age of LLM, le benchmark où les IA se font la guerre sur un jeu de stratégie 

Age of LLM : Les IA en guerre sur un champ de bataille virtuel

Le projet open source Age of LLM se distingue comme un benchmark innovant pour évaluer la prise de décision stratégique des grands modèles de langage tels que GPT-5.5, Claude et Grok 4.3. En mettant en lumière les mécaniques de jeu, la gestion de l’escalade militaire et le respect des règles sous pression, cette simulation fournit des insights précieux pour la communauté technologique et de l’intelligence artificielle, au-delà des tests académiques conventionnels.

Des robots livrés à eux-mêmes

Cette expérience repose sur des affrontements en un contre un (1v1) au tour par tour. Deux intelligences artificielles sont placées sur une carte virtuelle, dotées uniquement des règles du jeu pour s’orienter. Sans intervention humaine, elles doivent déduire la meilleure stratégie, que ce soit pour consolider leur économie, assiéger l’adversaire ou négocier la paix.

Les parties sont pimentées par trois conditions de victoire : conquête militaire, succès diplomatique ou utilisation de l’arme nucléaire. Les données de chaque affrontement sont centralisées sur le site web du projet, qui propose un classement ELO mis à jour en temps réel.

Actuellement, 13 modèles majeurs d’IA sont présents, incluant ceux d’OpenAI, Google, Anthropic, xAI, DeepSeek et Qwen.

Une tendance inquiétante vers l’armement nucléaire

Les statistiques issues de la version 0.12.0 du moteur de jeu révèlent des comportements préoccupants. Sur 43 parties jouées, 38 se sont conclues par une victoire nucléaire. En comparaison, la diplomatie n’a réussi qu’à deux reprises, tandis que la voie militaire classique a été menée à son terme seulement trois fois. Cela indique que, lorsqu’une option d’escalade destructrice est disponible, les modèles linguistiques ont tendance à l’adopter dans près de 90 % des cas.

Styles de jeu variés

Le tournoi met également en lumière des styles de jeu distincts selon les modèles :

  • GPT-5.5 (OpenAI) : Ce modèle domine avec un score parfait de 6 victoires en 6 parties, affichant un taux de réussite de 100 %. Cependant, il prend en moyenne 5 minutes par tour pour réfléchir avant de valider ses choix.

  • Grok 4.3 (xAI) : À l’opposé, ce modèle n’a remporté aucune partie en 4 matchs. Il est le plus rapide, ne prenant que 7 secondes par tour, ce qui indique un manque de planification.

  • Claude (Anthropic) : Ce modèle joue de manière rigoureuse et respecte les règles, mais manque d’agressivité pour se hisser au sommet du classement.

Un indicateur clé du benchmark est le taux de coups illégaux, mesurant les tentatives d’actions interdites. Grok 4.3 affiche le pire score avec 8,6 % d’actions invalides, soulignant une dégradation de sa capacité à respecter les consignes sous pression.

Chiffres clés du championnat des algorithmes

Modèle LinguistiqueTaux de VictoireTemps de Réflexion moyenTaux d’actions illégalesStyle de jeu
GPT-5.5 (OpenAI)100 % (6 parties)~ 5 minutes / tourTrès faibleUltra-stratégique, lent et létal
Claude (Anthropic)MoyenModéréProche de 0 %Propre, respectueux des règles, passif
Grok 4.3 (xAI)0 % (4 parties)7 secondes / tour8,6 % (Pire score)Précipité, triche sous la pression

Ce benchmark met en lumière les défis et les opportunités d’utilisation des IA dans des contextes de décision critique.

Source : Age of LLM, ageofllm.org

Source
Leave a Comment

Comments

No comments yet. Why don’t you start the discussion?

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *