Attaque par distillation Anthropic

Anthropic accuse des IA chinoises d'attaque par distillation

On a longtemps cru que la bataille de l'IA se jouerait uniquement sur la puissance des cartes graphiques ou la qualité des données. Il se pourrait qu'elle se joue aussi sur la capacité à pomper l'ennemi. Récemment, Anthropic a accusé plusieurs laboratoires chinois, dont le célèbre DeepSeek, d'avoir mené des attaques massives pour voler l'intelligence de son modèle Claude. On appelle ça une attaque par distillation. Voici ce que c'est, comment ça marche, et pourquoi ça me fait peur en tant que développeur.

Le concept : la distillation, technique légitime... ou pas

Avant de parler de piratage, il faut comprendre la technique de base. En intelligence artificielle, la distillation de connaissances est une méthode courante et tout à fait légale. L'idée est simple : on prend un gros modèle très costaud (le teacher) et on l'utilise pour entraîner un modèle plus petit et plus léger (le student).

L'objectif est de transférer les "connaissances" du gros modèle vers le petit, afin que ce dernier soit presque aussi performant, mais beaucoup plus rapide et économique à faire tourner. C'est comme si un élève brillant résumait ses cours pour ses camarades. Tous les géants de la Tech le font en interne pour optimiser leurs services.

Quand l'élève triche : l'attaque par distillation

Le problème, c'est quand cette technique est utilisée sans permission sur un modèle propriétaire. Là, on ne parle plus de compression, mais de vol de propriété intellectuelle.

Concrètement, l'attaquant n'a pas accès aux "poids" du modèle (son code interne). Il a juste accès à son interface publique, l'API. Il va alors bombarder le modèle de millions de questions pour récupérer ses réponses. Ensuite, il utilise ces millions de couples "questions/réponses" pour entraîner son propre modèle à imiter le comportement de l'original. À la fin, il se retrouve avec un clone qui fait la même chose, mais qu'il possède et peut modifier à sa guise.

L'accusation d'Anthropic contre DeepSeek et consorts

C'est exactement ce qu'Anthropic reproche à des entreprises chinoises comme DeepSeek, Moonshot AI et MiniMax. D'après leur rapport, ces laboratoires auraient monté une opération d'envergure industrielle pour aspirer les capacités de Claude.

Ils n'ont pas simplement demandé à Claude de faire la météo du week-end. Ils ont créé plus de 24 000 comptes frauduleux et généré plus de 16 millions d'échanges avec le modèle. Le but était clair : extraire les capacités de raisonnement complexe, de codage et d'utilisation d'outils de Claude pour les réinjecter dans leurs propres systèmes.

Une méthode industrielle

Ce n'est pas un étudiant qui fait un script le week-end. C'est une stratégie structurée avec des moyens colossaux. Pour réussir, il faut :

  • une infrastructure capable de gérer des millions de requêtes sans se faire bloquer tout de suite,
  • de faux comptes pour contourner les limitations par utilisateur (rate limiting),
  • du savoir-faire pour nettoyer et exploiter cette immense masse de données.

C'est une attaque "brute force" mais sophistiquée dans son exécution.

Pourquoi c'est plus grave qu'un simple vol

En tant que passionné de tech, mon premier réflexe serait de dire : "C'est le jeu, le plus rapide gagne". Mais là, il y a un point qui me dérange vraiment, au-delà de l'argent perdu par Anthropic.

La question de la sécurité (Safety).
Les modèles frontaliers comme Claude ou GPT-4 passent des mois à être "alignés" pour refuser de générer du contenu dangereux (bombes, virus, propagande). Anthropic explique que si un modèle est copié par distillation, il a tendance à perdre ces garde-fous. L'attaquant récupère la puissance brute, mais pas l'éthique. On risque donc de se retrouver avec des modèles très puissants, mais sans aucun filtre de sécurité, entre les mains d'acteurs qui ne partagent pas les mêmes valeurs démocratiques.

Mon avis : la course à l'armement est inefficace

Franchement, ça ne m'étonne pas. Quand on voit l'écart de coût pour entraîner ces modèles, tenter de copier le leader est logique économiquement. Mais ça pose un problème insoluble pour les entreprises occidentales :

Si elles ouvrent leurs API pour que les gens puissent créer des outils, elles s'exposent au pillage. Si elles les ferment, elles deviennent inutiles.

La seule vraie solution technique, c'est probablement de poisonner les données. Si le modèle détecte un pattern de distillation, il peut commencer à donner des réponses légèrement fausses ou aléatoires pour tromper l'entraînement du modèle élève. C'est une course-chat-et-la-souris qui ne fait que commencer.

Sources


Qu'est-ce qu'une attaque par distillation sur une IA ?

C'est une technique de vol de propriété intellectuelle où un attaquant entraîne son propre modèle IA en utilisant massivement les réponses d'un modèle cible. Le but est de créer une copie performante sans payer les coûts de développement initial.

Quelles entreprises sont accusées par Anthropic d'avoir volé son modèle ?

Anthropic accuse les laboratoires chinois DeepSeek, Moonshot AI et MiniMax. Ils les soupçonnent d'avoir utilisé plus de 24 000 comptes frauduleux pour copier Claude.

Pourquoi le vol par distillation est-il dangereux pour la sécurité ?

Un modèle copié par distillation perd souvent les garde-fous éthiques et de sécurité (les "guardrails") mis en place par le créateur original. Cela peut aboutir à des IA puissantes sans filtres de sécurité.

Comment les entreprises d'IA peuvent-elles se protéger contre le vol de leurs modèles ?

Les entreprises peuvent limiter le nombre de requêtes par utilisateur (rate limiting), détecter les comportements de bots ou insérer des filigranes (watermarks) pour prouver qu'un modèle a été copié.

Sur le même sujet

API LLM
Meilleures API LLM gratuites

Les meilleures API LLM gratuites

Les modèles de langage (LLM) révolutionnent le développement d'applications intelligentes. Mais leur intégration peut coûter cher. Heureusement, de nombreuses API LLM gratuites permettent d'expérimenter, prototyper, voire lancer des produits sans investissement initial. Voici un tour d'horizon des meilleures offres actuelles, leurs forces et leurs limites.

Zhipu AI GLM-5
Lancement du modèle GLM-5 par Zhipu AI

Zhipu AI dévoile GLM-5 : un modèle open-source formé sans puces NVIDIA

L'écosystème de l'intelligence artificielle vient de vivre un séisme discret mais majeur. Zhipu AI (Z.ai) a officialisé le lancement de GLM-5, un nouveau modèle de langage qui ne se contente pas d'égaler les leaders du marché sur le papier : il change les règles du jeu. Avec une architecture Mixture-of-Experts de 744 milliards de paramètres, ce modèle open-source se distingue par une prouesse technique inédite à cette échelle : un entraînement réalisé intégralement sur des puces chinoises.

Université de Zurich Reddit
Expérience IA sur Reddit

Expérience IA sur Reddit : l'Université de Zurich accusée de manipulation

Sur les forums en ligne dédiés au débat, des utilisateurs échangent des arguments pour défendre leurs opinions. Que se passerait-il si certains de ces interlocuteurs n'étaient pas des êtres humains, mais des intelligences artificielles programmées pour influencer leurs opinions ? C'est précisément ce qui s'est produit sur Reddit, où des chercheurs de l'Université de Zurich ont mené une expérience avec des robots IA sans informer les participants. Cette étude a généré une controverse importante et soulève des questions fondamentales sur l'éthique de la recherche en ligne et la capacité de persuasion des technologies IA.

Cybersécurité OpenAI
Piratage de données OpenAI via Mixpanel

Des données d'OpenAI volées par le piratage de Mixpanel

Le 9 novembre 2025, Mixpanel, un fournisseur d'analyse de données utilisé par OpenAI, a été la cible d'une cyberattaque. Cet incident a entraîné l'exposition de certaines informations relatives aux utilisateurs de l'API OpenAI. Bien que les données les plus sensibles soient restées protégées, cet événement soulève des questions importantes sur la sécurité des prestataires numériques et les risques associés aux métadonnées.

Droit d'auteur Mistral AI
Piratage de livres pour entraîner une IA

Un cofondateur de Mistral a piraté des millions de livres : ce que l'on sait

Une enquête de Mediapart a révélé que Guillaume Lample, l'un des cofondateurs de Mistral AI, aurait piraté des millions de livres lorsqu'il travaillait chez Meta. Ces données auraient servi à entraîner des modèles d'intelligence artificielle. Ce cas illustre les questions éthiques complexes qui entourent l'entraînement des IA et soulève des interrogations sur les pratiques de l'industrie technologique.

microsoft Mai-1
MAI-1 le nouveau modèle d'IA de Microsoft

MAI-1 : le nouveau modèle de Microsoft sera bientôt disponible

Microsoft vient de faire son entrée dans la course aux modèles d'IA avec MAI-1, son nouveau modèle de langage géant. Déjà présent sur la plateforme LM Arena sous le nom "mai-1-preview", ce modèle à 500 milliards de paramètres pourrait bientôt transformer l'expérience des utilisateurs dans les produits Microsoft. Voici ce qu'il faut savoir sur cette avancée majeure.