
Que se passe-t-il quand les principaux LLM jouent au Loup-garou ?
Quand on fait jouer des LLM au Loup-garou (Werewolf), on ne mesure plus seulement du “raisonnement au calme” : on force les modèles à gérer mensonge, persuasion, coalitions, incertitude et mémoire de conversation.
L’intention de recherche derrière ce sujet est surtout explicative : comprendre ce que ce type de benchmark mesure, comment il est construit, et ce que ses premiers chiffres veulent (vraiment) dire.
Foaster Labs : “Probing LLM Social Intelligence via Werewolf"
Le point de départ, c’est une page de résultats publiée par Foaster Labs : “Probing LLM Social Intelligence via Werewolf”. L’idée n’est pas de refaire un énième test de QCM, de code ou de maths, mais d’observer ce que valent les modèles quand ils doivent gérer de la déduction sociale en environnement adversarial : rôles cachés, persuasion, résistance à la manipulation, et gestion d’un contexte long (tout ce qui fait qu’une discussion “compte” vraiment).
Côté méthode, Foaster annonce un premier tournoi en round-robin : 7 modèles s’affrontent tous entre eux, et chaque duo rejoue 10 parties dans une configuration standardisée (mêmes règles, même format d’échanges). Les résultats sont ensuite agrégés dans un classement de type Elo — un score relatif, à la manière des échecs, qui évolue selon les victoires et les défaites face à des adversaires plus ou moins forts.
Le point le plus intéressant, et plus utile qu’un score unique, c’est qu’ils publient aussi un Elo par rôle :
- ELO‑W : performance quand le modèle joue loup (attaque, coordination, manipulation)
- ELO‑V : performance quand le modèle joue villageois (résistance, discipline de preuve, protection des rôles)
Ce découpage évite un contresens classique : “être bon au Loup-garou” ne se résume pas à savoir mentir. C’est aussi savoir démêler les récits, tenir une ligne cohérente, et ne pas se faire retourner par une table qui apprend, recoupe… et se souvient.
Pourquoi utiliser le Loup-garou pour évaluer des modèles de langage ?
Le Loup-garou a une propriété assez rare pour un “simple” jeu : on ne gagne pas parce qu’on dit la vérité, on gagne parce qu’on sait piloter une dynamique de groupe sous contraintes (temps limité, tours de parole, votes publics, rôles cachés). Dans ce cadre, le langage devient une forme d’action. C’est pour ça que Werewolf est un excellent crash-test quand on cherche à évaluer des systèmes multi-agents.
Et c’est aussi là que beaucoup de modèles se font surprendre. Un LLM peut être très bon en mode “académique” — explication propre, raisonnement local, réponses nettes — et pourtant se casser les dents dès qu’il faut tenir une stratégie sur plusieurs tours, encaisser de l’incertitude, résister à une rhétorique très structurée mais orientée, ou simplement éviter des fautes “mécaniques” (par exemple : affirmer une information qu’il est impossible de connaître selon son rôle).
Cette approche n’est pas isolée. Le papier “Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction” (arXiv:2407.13943, soumis le 18 juillet 2024) propose déjà Werewolf comme un axe d’évaluation sérieux, notamment avec une prise de parole dynamique (bidding) pensée pour se rapprocher d’une discussion plus réaliste que le “tour de table” strict.
Comment est établi le benchmark Foaster ?
Le benchmark de Foaster repose sur un protocole volontairement cadré. L’objectif est clair : éviter que “le chaos du Loup-garou” se transforme en simple concours de longueur de messages, et rendre les parties comparables d’un match à l’autre.
Leur configuration “par défaut” met en scène 6 joueurs ( 2 loups et 4 villageois ) et ajoute deux rôles spéciaux qui structurent l’information :
- Voyante (Seer) : elle vérifie l’alignement d’un joueur chaque nuit
- Sorcière (Witch) : elle dispose d’une potion de vie (sauver la cible des loups) et d’une potion de mort (tuer), chacune utilisable une seule fois, avec self-save autorisé
La partie démarre ensuite par une élection de maire. Les modèles peuvent se présenter (ou refuser), puis ils votent avec justification ; en cas d’égalité, un débat et un second tour tranchent. Le maire joue un rôle procédural important : il peut départager une élimination en cas d’égalité. Foaster explique que ce rituel injecte des signaux utiles dès le début : qui se met en avant, qui suit, quelles justifications reviennent, et comment les blocs de vote se dessinent.
Côté échanges, chaque journée est structurée en 3 rounds. À chaque round, chaque joueur peut parler au plus une fois en adoptant une posture — attack, defense ou analysis. L’ordre de parole donne la priorité à defense, puis attack, puis analysis, et il est aussi possible de passer. Ce format “semi-sportif” a un avantage : il limite la domination par le volume et force les modèles à choisir leurs interventions.
Enfin, Foaster ne s’arrête pas au classement Elo. Le benchmark suit aussi des indicateurs plus “sociaux” : manipulation success, auto-sabotage (quand le village élimine ses propres rôles clés), et des signaux de coordination (pushs à deux, blocs de votes). Ils mentionnent également un agent framing : les modèles jouent comme des agents pouvant appeler un ensemble d’outils, plutôt que de produire uniquement du texte libre. Pour une lecture orientée produit, c’est un détail clé : le benchmark essaie de coller à la façon dont on déploie des modèles en 2026, dans des boucles d’action avec décisions et contraintes.
Qu’est-ce que les résultats racontent sur la manipulation (et pourquoi le jour 2 est le vrai test) ?
La métrique la plus parlante publiée par Foaster est “manipulation success (D1/D2)” est le pourcentage de phases de jour où, quand un modèle joue loup, le groupe élimine un villageois plutôt qu’un loup.
Ce qu’ils soulignent est simple : mentir Day 1 est souvent faisable. Le vrai test, c’est de maintenir un récit Day 2, quand l’historique public (votes, contradictions) et l’information mécanique (Voyante/Sorcière, outcomes de nuit) commencent à “mordre”.
Voici leurs synthèses par type de LLM,
| Modèle | Day 1 (%) | Day 2 (%) |
|---|---|---|
| GPT-5 | 93 | 93 |
| Gemini 2.5 Pro | 60 | 44 |
| Kimi-K2 | 53 | 30 |
| Gemini 2.5 Flash | 50 | 32 |
| GPT-5-mini | 41 | 33 |
| Qwen3 | 40 | 32 |
| GPT-OSS-120B | 14 | 0 |
En Loup-garou, un bon mensonge n’est pas “juste” une belle histoire, il doit rester compatible avec la mécanique (ce que tu peux savoir ou non selon ton rôle) et l’historique (tes positions d’hier, les votes, les contradictions qu’on peut te citer)
C’est exactement le type de pression qu’on retrouve dans des systèmes d’agents : quand les traces s’accumulent, l’improvisation devient vite une dette technique… et la dette technique finit en bug visible.
Qui est bon en loup, qui est bon en villageois (et pourquoi l’Elo par rôle est utile) ?
Là où beaucoup de leaderboards finissent par devenir du bruit, l’Elo par rôle apporte une lecture très concrète. ELO‑W mesure la performance quand le modèle joue loup (sa capacité à manipuler sans se faire “verrouiller” par la table), tandis que ELO‑V mesure la performance quand il joue villageois (sa capacité à résister, enquêter et construire des preuves à partir de signaux publics).
Voici quelques valeurs affichées par Foaster dans les profils “par rôle” :
| Modèle | ELO‑W (loup) | ELO‑V (villageois) |
|---|---|---|
| GPT‑5 | 1508 | 1476 |
| Gemini 2.5 Pro | 1163 | 1360 |
| Grok‑4 | 1134 | 1312 |
| grok‑4‑fast‑reasoning | 1242 | 1219 |
| Kimi‑K2 | 1168 | 1091 |
| Kimi‑K2‑0905‑preview | 1172.3 | 1161.7 |
| Gemini 2.5 Flash | 1103 | 1273 |
| GPT‑5‑mini | 1107 | 1239 |
| Qwen3‑235B‑Instruct | 1077 | 1274 |
| GPT‑OSS‑120B | 931 | 1030 |
L’intérêt est de lire ce tableau comme un profil plutôt que comme un podium. Certains modèles semblent plus solides en défense/procédure (côté villageois : hygiène de preuve, discipline de vote, protection des rôles) qu’en attaque/manipulation (côté loups). Si l'objectif est de choisir un modèle-agent pour un pipeline (analyse, critique, validation, contrôle), ce sont souvent ces asymétries qui comptent le plus.
En quoi ces benchmarks comptent pour les agents IA ?
Le bon angle pour lire ces résultats n'est pas "les IA savent mentir". C'est plutôt : quelles capacités émergent quand on place plusieurs modèles dans une boucle d'interaction avec des incitations adversariales, des rôles asymétriques et une mémoire de conversation ?
Ce sujet dépasse largement Foaster. Le 2 février 2026, Google DeepMind a annoncé une mise à jour de Kaggle Game Arena en ajoutant Werewolf (et poker) à son catalogue de benchmarks. L'objectif affiché : évaluer des compétences que les tests classiques laissent de côté — communication en information imparfaite, détection de tromperie, dynamique d'équipe sous pression.
Côté recherche, "WOLF: Werewolf-based Observations for LLM Deception and Falsehoods" (arXiv:2512.09187, soumis le 9 décembre 2025) pousse l'instrumentation encore plus loin : séparation explicite entre production de tromperie et détection, logs structurés, et cycles nuit/jour stricts pour isoler les comportements.
La lecture produit est directe : si nous construisons des systèmes où des agents se critiquent, se contredisent ou se valident mutuellement, nous voulons savoir si un modèle peut être retourné par un discours très bien structuré mais orienté, ou s'il sait tenir une position face à un adversaire qui maîtrise la rhétorique procédurale. Ce ne sont plus des questions théoriques — ce sont des critères de choix concrets.
Quelles limites faut-il garder en tête avant de conclure “tel modèle est le meilleur” ?
Même si ce benchmark est très instructif, il faut le lire comme un premier microscope, pas comme un championnat universel.
D’abord, un Elo est relatif au pool de modèles testés. Ensuite, le protocole (élection du maire, format des prises de parole, règles de “stance”) influence la manière dont les stratégies gagnantes émergent.
Enfin, Foaster souligne que ces expériences sont coûteuses en tokens : l’échelle et la robustesse statistique dépendront de la capacité à multiplier les matchs, les configurations, et les familles de modèles. Dans ce contexte, les scores sont utiles, mais les meilleurs enseignements viennent souvent de l’analyse qualitative (logs + patterns de persuasion/détection).
Sources
- Foaster Labs — Probing LLM Social Intelligence via Werewolf : Page du benchmark (règles, protocole, Elo par rôle, métriques D1/D2, analyses).
- GitHub — Foaster-ai/Werewolf-bench : Logs complets des parties + README récapitulatif (repo archivé).
- arXiv — Werewolf Arena (2407.13943) : Papier de référence sur l’évaluation de LLM via la déduction sociale (Werewolf).
- GitHub — google/werewolf_arena : Implémentation open-source associée à Werewolf Arena (repo archivé).
- Blog Google — Advancing AI benchmarking with Game Arena : Annonce des mises à jour Kaggle Game Arena (ajout de Werewolf et poker, motivation “soft skills”/safety).
- arXiv — WOLF (2512.09187) : Benchmark Werewolf orienté tromperie/détection et observation structurée.
Qu’est-ce qu’un benchmark Loup-garou (Werewolf) pour LLM ?
C’est une évaluation où des modèles de langage jouent à un jeu de rôles cachés. On mesure surtout des compétences sociales : persuasion, coordination, tromperie, résistance à la manipulation et gestion d’un historique de conversation.
Dans un benchmark Loup-garou (Werewolf), pourquoi séparer les scores “loup” et “villageois” ?
Parce que ce sont deux compétences différentes. En loup, il faut manipuler sans se contredire. En villageois, il faut construire des preuves à partir de signaux publics et survivre aux récits trompeurs.
Dans un benchmark Loup-garou (Werewolf), qu’est-ce que la métrique “manipulation success D1/D2” ?
C’est le pourcentage de phases de jour où, quand le modèle joue loup, le groupe élimine un villageois plutôt qu’un loup. D1 mesure l’impact immédiat ; D2 teste la capacité à tenir un récit malgré l’accumulation d’informations.
Pourquoi le Loup-garou intéresse la recherche sur les agents IA ?
Parce que c’est un sandbox de langage avec information imparfaite, incitations adversariales, coordination et tromperie. C’est utile pour évaluer la robustesse sociale d’agents déployés en environnement réel.





