
Anthropic triche-t-il sur les tokens consommés par Claude Code ?
Claude Code s'est imposé comme un outil incontournable pour de nombreux développeurs, offrant une capacité d'analyse et de génération de code impressionnante. Pourtant, une inquiétude grandit au sein de la communauté : celle d'une facturation devenue opaque et excessive. Récemment, un utilisateur a rapporté avoir dépensé 174 € de crédits en quelques heures, remarquant qu'une question aussi simple que "combien font 1+1 ?" engloutissait 20 000 tokens. Au-delà du bug, ces interrogations soulèvent un problème plus profond : la confiance dans le compteur. Entre l'impact massif du contexte du projet et une éventuelle mauvaise optimisation, il est légitime de se demander si le système de facturation d'Anthropic est fiable.
Des factures qui flambent : le symptôme d'un problème caché ?
L'anecdote du développeur ayant atteint sa limite hebdomadaire en une demi-journée n'est pas isolée. Elle illustre un phénomène où la consommation semble découpler de la valeur réelle de la réponse. Lorsqu'un modèle génère une réponse d'un caractère mais consomme l'équivalent de 15 000 mots, deux hypothèses s'affrontent : soit une défaillance technique dans le comptage des tokens, soit une mauvaise gestion de l'architecture de l'outil. Cette situation force les utilisateurs à surveiller leur dashboard avec anxiété, transformant l'assistant en une potentielle fuite financière.
L'explication technique : le poids du "Contexte"
Avant de crier à l'arnaque, il faut comprendre comment fonctionne Claude Code. Contrairement à un chat classique, cet agent est conçu pour "vivre" dans votre environnement de travail. Quand vous posez une question, même simple, vous ne lui envoyez pas que votre phrase. Vous lui envoyez implicitement :
- l'intégralité de votre dépôt GitHub ouvert,
- les fichiers de configuration,
- l'historique récent de vos modifications.
C'est ce qu'on appelle l'effet de contexte. Si votre projet est volumineux, demander "1+1" peut déclencher l'analyse de plusieurs mégaoctets de code juste pour s'assurer que la réponse n'est pas influencée par une variable locale. Les 20 000 tokens consommés ne sont donc pas ceux du calcul, mais ceux du chargement de l'environnement.
Une gestion de cache inefficace ?
Si l'explication du contexte est logique, elle n'excuse pas tout. Un système bien optimisé devrait utiliser un cache : si vous posez deux fois la même question sans changer de code, le modèle ne devrait pas re-consommer les tokens de lecture du projet. Le fait que la consommation grimpe en flèche suggère que ce système de mise en cache est soit défaillant, soit désactivé par défaut, forçant une relecture intégrale et coûteuse à chaque interaction.
Opacité vs Malveillance : où est la limite ?
Accuser Anthropic de tricher délibérément est fort. Il est plus probable que nous fassions face à une boîte noire mal calibrée. Le véritable problème réside dans l'absence de transparence : l'utilisateur ne voit pas le détail de ce qui est facturé. Est-ce le prompt ? Est-ce le fichier node_modules de 10 000 lignes ? Sans visibilité sur le "ticket de caisse" détaillé, le doute s'installe. D'autant plus que les modèles récents, plus performants, sont aussi plus gourmands, ce qui peut fausser les perceptions de coût par rapport aux habitudes anciennes avec des modèles comme GPT-3.5.
Comment se protéger de la dérive des coûts ?
En attendant une plus grande clarté de la part d'Anthropic, la vigilance reste la seule défense. Il est recommandé de :
- Tester des prompts triviaux (comme "1+1") pour mesurer la base de consommation.
- Isoler l'outil du contexte global lorsque la tâche ne le nécessite pas, en posant une question dans l'interface web par exemple.
Cette situation rappelle l'importance de ne pas dépendre d'un seul fournisseur. Plusieurs utilisateurs rapportent avoir migrés vers des alternatives comme GLM 5.1 pour diversifier les risques, une stratégie prudente tant que l'économie de l'IA générative reste aussi volatile.
Sources
- Post LinkedIn d'Aaron Czlonkowski : Récit de l'incident de facturation de 174 € et de l'anomalie "1+1 = 20 000 tokens".
- Documentation Anthropic sur la facturation : Explication officielle du comptage de tokens entrants et sortants.
Pourquoi Claude Code consomme-t-il autant de tokens pour des questions simples ?
Claude Code envoie souvent l'intégralité du contexte de votre projet (vos fichiers, votre code) avec chaque prompt. Même une question simple entraîne la lecture de tout l'environnement de travail par l'IA.
Comment vérifier si ma facturation Anthropic est correcte ?
Il est difficile de vérifier token par token. Vous pouvez tester la consommation de base avec un prompt vide ou très simple hors contexte, et surveiller les sauts soudains de consommation sur votre dashboard.
Le cache est-il pris en compte dans la facturation de Claude Code ?
Normalement, oui, mais certains utilisateurs soupçonnent des dysfonctionnements où le cache n'est pas utilisé, entraînant une facturation répétitive pour la même lecture de fichiers.
Quelles sont les alternatives si Claude Code devient trop cher ?
On peut se tourner vers d'autres modèles via des interfaces comme Cursor ou Windsurf, ou tester des modèles open source comme GLM 5.1 via des plateformes comme z.ai, souvent moins chers mais plus lents.





