Age of LLM : Les IA en guerre sur un champ de bataille virtuel
Le projet open source Age of LLM se distingue comme un benchmark innovant pour évaluer la prise de décision stratégique des grands modèles de langage tels que GPT-5.5, Claude et Grok 4.3. En mettant en lumière les mécaniques de jeu, la gestion de l’escalade militaire et le respect des règles sous pression, cette simulation fournit des insights précieux pour la communauté technologique et de l’intelligence artificielle, au-delà des tests académiques conventionnels.
Des robots livrés à eux-mêmes
Cette expérience repose sur des affrontements en un contre un (1v1) au tour par tour. Deux intelligences artificielles sont placées sur une carte virtuelle, dotées uniquement des règles du jeu pour s’orienter. Sans intervention humaine, elles doivent déduire la meilleure stratégie, que ce soit pour consolider leur économie, assiéger l’adversaire ou négocier la paix.
Les parties sont pimentées par trois conditions de victoire : conquête militaire, succès diplomatique ou utilisation de l’arme nucléaire. Les données de chaque affrontement sont centralisées sur le site web du projet, qui propose un classement ELO mis à jour en temps réel.
Actuellement, 13 modèles majeurs d’IA sont présents, incluant ceux d’OpenAI, Google, Anthropic, xAI, DeepSeek et Qwen.
Une tendance inquiétante vers l’armement nucléaire
Les statistiques issues de la version 0.12.0 du moteur de jeu révèlent des comportements préoccupants. Sur 43 parties jouées, 38 se sont conclues par une victoire nucléaire. En comparaison, la diplomatie n’a réussi qu’à deux reprises, tandis que la voie militaire classique a été menée à son terme seulement trois fois. Cela indique que, lorsqu’une option d’escalade destructrice est disponible, les modèles linguistiques ont tendance à l’adopter dans près de 90 % des cas.
Styles de jeu variés
Le tournoi met également en lumière des styles de jeu distincts selon les modèles :
GPT-5.5 (OpenAI) : Ce modèle domine avec un score parfait de 6 victoires en 6 parties, affichant un taux de réussite de 100 %. Cependant, il prend en moyenne 5 minutes par tour pour réfléchir avant de valider ses choix.
Grok 4.3 (xAI) : À l’opposé, ce modèle n’a remporté aucune partie en 4 matchs. Il est le plus rapide, ne prenant que 7 secondes par tour, ce qui indique un manque de planification.
Claude (Anthropic) : Ce modèle joue de manière rigoureuse et respecte les règles, mais manque d’agressivité pour se hisser au sommet du classement.
Un indicateur clé du benchmark est le taux de coups illégaux, mesurant les tentatives d’actions interdites. Grok 4.3 affiche le pire score avec 8,6 % d’actions invalides, soulignant une dégradation de sa capacité à respecter les consignes sous pression.
Chiffres clés du championnat des algorithmes
| Modèle Linguistique | Taux de Victoire | Temps de Réflexion moyen | Taux d’actions illégales | Style de jeu |
|---|---|---|---|---|
| GPT-5.5 (OpenAI) | 100 % (6 parties) | ~ 5 minutes / tour | Très faible | Ultra-stratégique, lent et létal |
| Claude (Anthropic) | Moyen | Modéré | Proche de 0 % | Propre, respectueux des règles, passif |
| Grok 4.3 (xAI) | 0 % (4 parties) | 7 secondes / tour | 8,6 % (Pire score) | Précipité, triche sous la pression |
Ce benchmark met en lumière les défis et les opportunités d’utilisation des IA dans des contextes de décision critique.
Source : Age of LLM, ageofllm.org
