
Anthropic accuse des IA chinoises d'attaque par distillation
On a longtemps cru que la bataille de l'IA se jouerait uniquement sur la puissance des cartes graphiques ou la qualité des données. Il se pourrait qu'elle se joue aussi sur la capacité à pomper l'ennemi. Récemment, Anthropic a accusé plusieurs laboratoires chinois, dont le célèbre DeepSeek, d'avoir mené des attaques massives pour voler l'intelligence de son modèle Claude. On appelle ça une attaque par distillation. Voici ce que c'est, comment ça marche, et pourquoi ça me fait peur en tant que développeur.
Le concept : la distillation, technique légitime... ou pas
Avant de parler de piratage, il faut comprendre la technique de base. En intelligence artificielle, la distillation de connaissances est une méthode courante et tout à fait légale. L'idée est simple : on prend un gros modèle très costaud (le teacher) et on l'utilise pour entraîner un modèle plus petit et plus léger (le student).
L'objectif est de transférer les "connaissances" du gros modèle vers le petit, afin que ce dernier soit presque aussi performant, mais beaucoup plus rapide et économique à faire tourner. C'est comme si un élève brillant résumait ses cours pour ses camarades. Tous les géants de la Tech le font en interne pour optimiser leurs services.
Quand l'élève triche : l'attaque par distillation
Le problème, c'est quand cette technique est utilisée sans permission sur un modèle propriétaire. Là, on ne parle plus de compression, mais de vol de propriété intellectuelle.
Concrètement, l'attaquant n'a pas accès aux "poids" du modèle (son code interne). Il a juste accès à son interface publique, l'API. Il va alors bombarder le modèle de millions de questions pour récupérer ses réponses. Ensuite, il utilise ces millions de couples "questions/réponses" pour entraîner son propre modèle à imiter le comportement de l'original. À la fin, il se retrouve avec un clone qui fait la même chose, mais qu'il possède et peut modifier à sa guise.
L'accusation d'Anthropic contre DeepSeek et consorts
C'est exactement ce qu'Anthropic reproche à des entreprises chinoises comme DeepSeek, Moonshot AI et MiniMax. D'après leur rapport, ces laboratoires auraient monté une opération d'envergure industrielle pour aspirer les capacités de Claude.
Ils n'ont pas simplement demandé à Claude de faire la météo du week-end. Ils ont créé plus de 24 000 comptes frauduleux et généré plus de 16 millions d'échanges avec le modèle. Le but était clair : extraire les capacités de raisonnement complexe, de codage et d'utilisation d'outils de Claude pour les réinjecter dans leurs propres systèmes.
Une méthode industrielle
Ce n'est pas un étudiant qui fait un script le week-end. C'est une stratégie structurée avec des moyens colossaux. Pour réussir, il faut :
- une infrastructure capable de gérer des millions de requêtes sans se faire bloquer tout de suite,
- de faux comptes pour contourner les limitations par utilisateur (rate limiting),
- du savoir-faire pour nettoyer et exploiter cette immense masse de données.
C'est une attaque "brute force" mais sophistiquée dans son exécution.
Pourquoi c'est plus grave qu'un simple vol
En tant que passionné de tech, mon premier réflexe serait de dire : "C'est le jeu, le plus rapide gagne". Mais là, il y a un point qui me dérange vraiment, au-delà de l'argent perdu par Anthropic.
La question de la sécurité (Safety).
Les modèles frontaliers comme Claude ou GPT-4 passent des mois à être "alignés" pour refuser de générer du contenu dangereux (bombes, virus, propagande). Anthropic explique que si un modèle est copié par distillation, il a tendance à perdre ces garde-fous. L'attaquant récupère la puissance brute, mais pas l'éthique. On risque donc de se retrouver avec des modèles très puissants, mais sans aucun filtre de sécurité, entre les mains d'acteurs qui ne partagent pas les mêmes valeurs démocratiques.
Mon avis : la course à l'armement est inefficace
Franchement, ça ne m'étonne pas. Quand on voit l'écart de coût pour entraîner ces modèles, tenter de copier le leader est logique économiquement. Mais ça pose un problème insoluble pour les entreprises occidentales :
Si elles ouvrent leurs API pour que les gens puissent créer des outils, elles s'exposent au pillage. Si elles les ferment, elles deviennent inutiles.
La seule vraie solution technique, c'est probablement de poisonner les données. Si le modèle détecte un pattern de distillation, il peut commencer à donner des réponses légèrement fausses ou aléatoires pour tromper l'entraînement du modèle élève. C'est une course-chat-et-la-souris qui ne fait que commencer.
Sources
- We've identified industrial-scale distillation attacks on our models by DeepSeek... – X (Twitter) : Le tweet original d'Anthropic annonçant l'attaque et les chiffres clés.
- Top AI firm alleges Chinese labs used 24K fake accounts to siphon US tech – Fox News : L'article détaillant l'accusation et les implications géopolitiques.
Qu'est-ce qu'une attaque par distillation sur une IA ?
C'est une technique de vol de propriété intellectuelle où un attaquant entraîne son propre modèle IA en utilisant massivement les réponses d'un modèle cible. Le but est de créer une copie performante sans payer les coûts de développement initial.
Quelles entreprises sont accusées par Anthropic d'avoir volé son modèle ?
Anthropic accuse les laboratoires chinois DeepSeek, Moonshot AI et MiniMax. Ils les soupçonnent d'avoir utilisé plus de 24 000 comptes frauduleux pour copier Claude.
Pourquoi le vol par distillation est-il dangereux pour la sécurité ?
Un modèle copié par distillation perd souvent les garde-fous éthiques et de sécurité (les "guardrails") mis en place par le créateur original. Cela peut aboutir à des IA puissantes sans filtres de sécurité.
Comment les entreprises d'IA peuvent-elles se protéger contre le vol de leurs modèles ?
Les entreprises peuvent limiter le nombre de requêtes par utilisateur (rate limiting), détecter les comportements de bots ou insérer des filigranes (watermarks) pour prouver qu'un modèle a été copié.





