
Faire parler son agent IA comme un homme des cavernes pour économiser des tokens
Quand on utilise un agent de code comme Claude Code ou Cursor au quotidien, la facture de tokens grimpe vite. Je suis tombée sur une solution inattendue : forcer l'IA à parler comme un homme des cavernes. Le plugin open-source Caveman transforme les réponses verbeuses en phrases télégraphiques. Une astuce de prompt engineering qui semble farfelue, mais qui s'avère redoutable pour réduire les coûts et accélérer les sessions de travail.
Le concept Caveman : la fin du blabla technique
Le projet Caveman part d'un constat simple : les modèles de langage génèrent trop de remplissage. L'IA commence souvent par dire qu'elle est "heureuse d'aider", utilise des tournures conditionnelles et enrobe sa réponse dans une prose polie.
Caveman agit comme un filtre agressif sur cette verbosité. Seul subsiste le cœur technique : le diagnostic du problème et la solution. Les articles, les mots de liaison et les formules de politesse sont supprimés.
Le résultat est saisissant. Une explication classique de 69 tokens sur un bug React se transforme en une phrase de 19 tokens : "New object ref each render. Inline object prop = new ref = re-render. Wrap in useMemo."
Pourquoi contraindre la verbosité de l'IA ?
La première motivation est financière. Chaque token généré par le modèle est facturé. Réduire la taille de la réponse diminue mécaniquement la facture. Mais l'intérêt va au-delà de l'économie pure.
| Avantage | Impact réel |
|---|---|
| Coût | Environ 65 % à 75 % de tokens de sortie en moins |
| Vitesse | Réponse générée environ 3 fois plus vite |
| Précision | Moins de texte signifie moins de risque de dériver du sujet |
Une étude de mars 2026 ("Brevity Constraints Reverse Performance Hierarchies in Language Models") démontre même que forcer les modèles à être brefs améliore leur précision de 26 points de pourcentage sur certains benchmarks. L'IA ne perd pas en intelligence : elle concentre sa puissance de calcul sur la solution plutôt que sur l'emballage.
Comment fonctionne l'extension en pratique ?
Caveman s'installe en une ligne de commande sur la plupart des agents de code populaires (Claude Code, Cursor, Gemini CLI, Codex). Une fois activé, il ne s'applique qu'aux tokens de sortie. Les tokens de réflexion (le raisonnement interne du modèle) restent intacts.
L'outil propose plusieurs paliers de compression pour s'adapter à la tolérance de l'utilisateur.
Les niveaux de compression
| Mode | Style | Exemple |
|---|---|---|
| Lite | Remplissage supprimé, grammaire correcte | "Ton composant se re-rend car tu crées une nouvelle référence d'objet. Utilise useMemo." |
| Full | Style télégraphique, fragments | "Nouvelle ref objet. Prop inline = re-render. useMemo." |
| Ultra | Compression maximale, abréviations | "Obj prop → re-render. useMemo." |
Le niveau choisi reste actif pendant toute la session, jusqu'à ce que l'utilisateur demande un retour au mode normal.
Une limite forte pour les développeurs juniors
Si l'approche séduit les profils expérimentés, elle comporte un biais pédagogique évident pour les débutants. En supprimant le contexte et les explications sur le "pourquoi", le junior se prive de l'effet tuteur.
Il obtient la bonne ligne de code, mais ne comprend pas le mécanisme sous-jacent. Caveman est un outil d'efficacité pour ceux qui maîtrisent déjà les concepts pointus. Pour un apprentissage solide, il est préférable de conserver un agent bavard le temps de saisir les fondamentaux, puis de passer au mode télégraphique pour gagner en productivité.
Sources
- Dépôt GitHub JuliusBrussee/caveman : Code source, benchmarks et documentation d'installation de l'extension.
- Brevity Constraints Reverse Performance Hierarchies in Language Models (arXiv, 2026) : Étude démontrant l'impact positif des contraintes de brièveté sur la précision des modèles.
Qu'est-ce que le plugin Caveman pour les IA ?
Caveman est une extension open-source pour agents de code (Claude Code, Cursor, etc.) qui modifie les instructions système pour forcer l'IA à répondre sans remplissage, de manière télégraphique, afin de réduire le nombre de tokens générés.
Quelle économie de tokens permet Caveman ?
Le plugin permet une réduction moyenne de 65 % à 75 % des tokens de sortie par rapport à une réponse standard, selon les benchmarks officiels du projet.
Est-ce que parler en style "caveman" rend l'IA moins précise ?
Non. Les tokens de réflexion interne du modèle restent intacts. Seule la forme textuelle finale est compressée. Une étude de 2026 montre même que contraindre la brièveté peut améliorer la précision de 26 points de pourcentage sur certains benchmarks.
Comment installer Caveman sur Claude Code ou Cursor ?
Pour Claude Code, via le marketplace : claude plugin marketplace add JuliusBrussee/caveman. Pour Cursor ou d'autres agents compatibles, via la commande : npx skills add JuliusBrussee/caveman -a cursor.





