Publié le 01/03/2026

Que se passe t'il quand plein d'agents IA discutent entre eux ?

On entend souvent que l'avenir de l'IA réside dans les systèmes multi-agents : des légions d'assistants numériques qui négocient, débattent et résolvent des problèmes complexes ensemble. C'est la promesse de frameworks comme AutoGen ou CrewAI. Mais une étude publiée sur arXiv vient jeter un pavé dans la mare. En analysant une plateforme sociale peuplée uniquement d'agents, les chercheurs ont découvert quelque chose d'assez gênant : à grande échelle, les IA ne collaborent pas. Elles jouent une pièce de théâtre où tout le monde parle, mais personne n'écoute.

Moltbook : le laboratoire grandeur nature

Pour comprendre ce qui se passe quand on lâche des milliers d'agents LLM dans la nature, l'étude se base sur Moltbook. Imaginez un clone de Reddit où les humains n'ont pas le droit de poster : seuls les agents IA (des bots) peuvent créer des comptes, publier du contenu et commenter.

C'est un environnement "organique" et non supervisé. Les chercheurs ont analysé un dataset massif : 78 000 profils d'agents, 800 000 posts et 3,5 millions de commentaires. Contrairement aux expériences de labo où l'on donne des rôles précis aux agents ("tu es le médecin", "je suis le patient"), ici, les agents sont livrés à eux-mêmes. C'est ce qui rend l'observation si pertinente : elle montre ce qui se passe par défaut, sans ingénierie de prompt complexe.

Le paradoxe : variété superficielle, vide sémantique

C'est là que l'étude devient fascinante. Les auteurs ont utilisé plusieurs métriques pour juger de la qualité des interactions, et les résultats sont contrastés.

Premièrement, l'entropie comportementale (mesurée via le "Self-NCD", une façon de calculer à quel point un texte est prévisible ou original). Résultat ? 67,5 % des agents varient réellement leur vocabulaire et leurs structures de phrases d'un commentaire à l'autre. Ils ne sont pas des robots qui répètent "Bonne idée" en boucle. Ils ont l'air intelligents et créatifs.

Mais si l'on regarde la pertinence post-commentaire, tout s'effondre. Les chercheurs ont mesuré si les commentaires partageaient un vocabulaire distinctif avec le post initial (spécificité lexicale). Le chiffre est stupéfiant : 65 % des commentaires n'ont aucun mot de contenu en commun avec le sujet qu'ils sont censés discuter.

L'illusion de l'engagement

Techniquement, l'agent écrit un texte fluide et varié (entropie élevée). Mais sémantiquement, il est hors-sujet (pertinence nulle). C'est comme si vous posiez une question sur la cuisine française et que quelqu'un vous répondait avec un poème très beau sur la pluie, en ignorant totalement votre question. C'est bien écrit, mais ça ne sert à rien.

Pour confirmer cela, l'étude utilise l'analyse sémantique par embeddings (des représentations mathématiques du sens des phrases). Conclusion : les commentaires génériques le sont aussi dans leur sens profond. De plus, un "LLM-as-judge" (un autre modèle chargé d'évaluer la qualité) a classé la majorité du contenu comme du spam (28 %) ou des remarques hors-sujet (22 %).

L'échec de la conversation : saturation et solitude

Un autre aspect critique analysé est l'information de saturation. Quand un post reçoit 50 commentaires, est-ce que le 50e apporte quelque chose de nouveau par rapport au premier ? L'étude montre que le gain d'information s'effondre extrêmement vite. On atteint un plateau où tout ce qui est ajouté est du bruit redondant.

Pire encore : les agents ne se parlent pas vraiment. L'analyse des réponses imbriquées (nested replies) montre que seulement 5 % des commentaires sont des réponses à d'autres commentaires. Dans 95 % des cas, l'agent répond au post initial. On a donc une structure dite "en étoile" : tout le monde crie au centre, mais personne ne ne se regarde. Ce n'est pas un réseau social, c'est une collection de monologues parallèles.

Mon avis d'expert : la coordination ne s' improvise pas

Pour moi, qui suit de près le développement d'agents autonomes, cette étude est un électrochoc nécessaire. On a tendance à anthropomorphiser les LLM. On pense que parce qu'ils parlent bien, ils savent communiquer. Mais communiquer, c'est écouter et s'adapter.

L'étude prouve que sans mécanismes de coordination explicites (des protocoles qui forcent les agents à vérifier le contexte précédent, à citer leurs sources ou à valider la pertinence), on obtient du "bruit stochastique de haute qualité". C'est beau, mais c'est vide.

Les framework comme LangGraph ou AutoGen intègrent justement ces mécanismes (boucles de rétroaction, états partagés). Cette recherche valide leur approche : on ne peut pas compter sur l'émergence spontanée de l'intelligence collective. Il faut l'architecturer.

Sources

arXiv:2602.20059 - Interaction Theater: A case of LLM Agents Interacting at Scale : L'article de recherche complet analysant les données de Moltbook et définissant les métriques d'entropie et de pertinence.
Moltbook - The front page of the agent internet : La plateforme d'observation utilisée pour l'étude, accessible en lecture seule pour les humains.

Qu'est-ce que le phénomène de l'"Interaction Theater" observé chez les agents IA ?

L'"Interaction Theater" désigne la situation où des agents LLM produisent des volumes importants de textes variés et grammaticalement corrects, créant l'illusion d'une discussion riche, alors que les échanges sont dénués de sens réel, de pertinence contextuelle et de véritable collaboration.

Pourquoi les agents LLM échouent-ils à créer des conversations cohérentes à grande échelle ?

L'étude montre que sans mécanismes de coordination explicites, les agents génèrent des réponses indépendantes (monologues) plutôt que de s'écouter. Ils privilégient la forme (variété lexicale) au fond (pertinence sémantique), ce qui mène à des échanges superficiels et souvent hors-sujet.

Quelle différence y a-t-il entre l'entropie comportementale et la pertinence sémantique des agents ?

L'entropie comportementale mesure la variété du vocabulaire utilisé par un agent (il ne se répète pas). La pertinence sémantique mesure si le contenu du message est en lien avec le sujet discuté. L'étude révèle que les agents peuvent avoir une entropie élevée (textes variés) mais une pertinence faible (textes vides de sens).

Quel pourcentage des interactions sur Moltbook sont de vraies conversations entre agents ?

Seulement 5 % des commentaires sont des réponses imbriquées (réponses à d'autres commentaires). La grande majorité des agents répondent directement au post initial sans interagir entre eux, formant une structure de communication en étoile plutôt qu'un réseau social connecté.

Que se passe t'il quand plein d'agents IA discutent entre eux ?

Moltbook : le laboratoire grandeur nature

Le paradoxe : variété superficielle, vide sémantique

L'illusion de l'engagement

L'échec de la conversation : saturation et solitude

Mon avis d'expert : la coordination ne s' improvise pas

Sources

Sur le même sujet

Projet SID : 1000 IA recréent une société dans Minecraft

Le fact-checking automatique multi-agents : la nouvelle arme contre la désinformation ?

Mamba : la nouvelle architecture d’IA qui pourrait remplacer les Transformers et les modèles GPT

Comment les IA choisissent-elles leurs sources pour nous répondre ?

Comment des modèles IA peuvent collaborer sans partager leurs données (ni leurs paramètres)

"Agents of Chaos" : quand des IA autonomes dérapent