Attaque par distillation Anthropic

Anthropic accuse des IA chinoises d'attaque par distillation

On a longtemps cru que la bataille de l'IA se jouerait uniquement sur la puissance des cartes graphiques ou la qualité des données. Il se pourrait qu'elle se joue aussi sur la capacité à pomper l'ennemi. Récemment, Anthropic a accusé plusieurs laboratoires chinois, dont le célèbre DeepSeek, d'avoir mené des attaques massives pour voler l'intelligence de son modèle Claude. On appelle ça une attaque par distillation. Voici ce que c'est, comment ça marche, et pourquoi ça me fait peur en tant que développeur.

Le concept : la distillation, technique légitime... ou pas

Avant de parler de piratage, il faut comprendre la technique de base. En intelligence artificielle, la distillation de connaissances est une méthode courante et tout à fait légale. L'idée est simple : on prend un gros modèle très costaud (le teacher) et on l'utilise pour entraîner un modèle plus petit et plus léger (le student).

L'objectif est de transférer les "connaissances" du gros modèle vers le petit, afin que ce dernier soit presque aussi performant, mais beaucoup plus rapide et économique à faire tourner. C'est comme si un élève brillant résumait ses cours pour ses camarades. Tous les géants de la Tech le font en interne pour optimiser leurs services.

Quand l'élève triche : l'attaque par distillation

Le problème, c'est quand cette technique est utilisée sans permission sur un modèle propriétaire. Là, on ne parle plus de compression, mais de vol de propriété intellectuelle.

Concrètement, l'attaquant n'a pas accès aux "poids" du modèle (son code interne). Il a juste accès à son interface publique, l'API. Il va alors bombarder le modèle de millions de questions pour récupérer ses réponses. Ensuite, il utilise ces millions de couples "questions/réponses" pour entraîner son propre modèle à imiter le comportement de l'original. À la fin, il se retrouve avec un clone qui fait la même chose, mais qu'il possède et peut modifier à sa guise.

L'accusation d'Anthropic contre DeepSeek et consorts

C'est exactement ce qu'Anthropic reproche à des entreprises chinoises comme DeepSeek, Moonshot AI et MiniMax. D'après leur rapport, ces laboratoires auraient monté une opération d'envergure industrielle pour aspirer les capacités de Claude.

Ils n'ont pas simplement demandé à Claude de faire la météo du week-end. Ils ont créé plus de 24 000 comptes frauduleux et généré plus de 16 millions d'échanges avec le modèle. Le but était clair : extraire les capacités de raisonnement complexe, de codage et d'utilisation d'outils de Claude pour les réinjecter dans leurs propres systèmes.

Une méthode industrielle

Ce n'est pas un étudiant qui fait un script le week-end. C'est une stratégie structurée avec des moyens colossaux. Pour réussir, il faut :

  • une infrastructure capable de gérer des millions de requêtes sans se faire bloquer tout de suite,
  • de faux comptes pour contourner les limitations par utilisateur (rate limiting),
  • du savoir-faire pour nettoyer et exploiter cette immense masse de données.

C'est une attaque "brute force" mais sophistiquée dans son exécution.

Pourquoi c'est plus grave qu'un simple vol

En tant que passionné de tech, mon premier réflexe serait de dire : "C'est le jeu, le plus rapide gagne". Mais là, il y a un point qui me dérange vraiment, au-delà de l'argent perdu par Anthropic.

La question de la sécurité (Safety).
Les modèles frontaliers comme Claude ou GPT-4 passent des mois à être "alignés" pour refuser de générer du contenu dangereux (bombes, virus, propagande). Anthropic explique que si un modèle est copié par distillation, il a tendance à perdre ces garde-fous. L'attaquant récupère la puissance brute, mais pas l'éthique. On risque donc de se retrouver avec des modèles très puissants, mais sans aucun filtre de sécurité, entre les mains d'acteurs qui ne partagent pas les mêmes valeurs démocratiques.

Mon avis : la course à l'armement est inefficace

Franchement, ça ne m'étonne pas. Quand on voit l'écart de coût pour entraîner ces modèles, tenter de copier le leader est logique économiquement. Mais ça pose un problème insoluble pour les entreprises occidentales :

Si elles ouvrent leurs API pour que les gens puissent créer des outils, elles s'exposent au pillage. Si elles les ferment, elles deviennent inutiles.

La seule vraie solution technique, c'est probablement de poisonner les données. Si le modèle détecte un pattern de distillation, il peut commencer à donner des réponses légèrement fausses ou aléatoires pour tromper l'entraînement du modèle élève. C'est une course-chat-et-la-souris qui ne fait que commencer.

Sources


Qu'est-ce qu'une attaque par distillation sur une IA ?

C'est une technique de vol de propriété intellectuelle où un attaquant entraîne son propre modèle IA en utilisant massivement les réponses d'un modèle cible. Le but est de créer une copie performante sans payer les coûts de développement initial.

Quelles entreprises sont accusées par Anthropic d'avoir volé son modèle ?

Anthropic accuse les laboratoires chinois DeepSeek, Moonshot AI et MiniMax. Ils les soupçonnent d'avoir utilisé plus de 24 000 comptes frauduleux pour copier Claude.

Pourquoi le vol par distillation est-il dangereux pour la sécurité ?

Un modèle copié par distillation perd souvent les garde-fous éthiques et de sécurité (les "guardrails") mis en place par le créateur original. Cela peut aboutir à des IA puissantes sans filtres de sécurité.

Comment les entreprises d'IA peuvent-elles se protéger contre le vol de leurs modèles ?

Les entreprises peuvent limiter le nombre de requêtes par utilisateur (rate limiting), détecter les comportements de bots ou insérer des filigranes (watermarks) pour prouver qu'un modèle a été copié.

Sur le même sujet

Modèle de langage NVIDIA
Stratégie NVIDIA Nemotron 3 Super

Quelle est la stratégie de NVIDIA derrière son modèle gratuit Nemotron 3 Super ?

Quand un géant du hardware distribue gratuitement un modèle de 120 milliards de paramètres, la question n'est pas de savoir s'il est performant, mais pourquoi il l'est. Nemotron 3 Super est aujourd'hui l'un des modèles open-weight les plus utilisés sur des plateformes comme OpenRouter, séduisant les développeurs par son rapport puissance/coût nul. Pour les équipes techniques qui travaillent sur des agents ou des outils d'automatisation, ce modèle est une aubaine. Pour NVIDIA, c'est un levier stratégique calculé pour verrouiller l'avenir de l'infrastructure IA.

Sécurité informatique Agent IA

Email Agent Hijacking (EAH) : comprendre et se protéger de cette attaque

Les agents IA qui gèrent nos emails deviennent courants, mais ils introduisent une nouvelle faille de sécurité critique : l'Email Agent Hijacking (EAH). Cette attaque permet à un pirate de prendre le contrôle de l'agent et du compte email, sans que l'utilisateur ne s'en aperçoive. Si vous utilisez ou développez des outils d'automatisation email basés sur des LLM, cet article vous concerne directement.

Anthropic OpenAI
Claude vs ChatGPT : le choc des IA

Claude dépasse ChatGPT sur l'App Store : l'effet Pentagone

En février 2026, l'IA Claude d'Anthropic a détrôné ChatGPT d'OpenAI en tête des téléchargements sur l'App Store américain. Ce revirement spectaculaire n'est pas lié à une mise à jour technique, mais à une controverse éthique majeure avec le Pentagone. Cet article décrypte pourquoi une interdiction gouvernementale a paradoxalement propulsé Claude au sommet, et ce que cela révèle de l'importance croissante de l'éthique dans l'IA pour le grand public.

API LLM
Meilleures API LLM gratuites

Les meilleures API LLM gratuites

Les modèles de langage (LLM) révolutionnent le développement d'applications intelligentes. Mais leur intégration peut coûter cher. Heureusement, de nombreuses API LLM gratuites permettent d'expérimenter, prototyper, voire lancer des produits sans investissement initial. Voici un tour d'horizon des meilleures offres actuelles, leurs forces et leurs limites.

Politique Anthropic
Anthropic face au gouvernement américain

Anthropic : le dernier rempart moral de l'IA aux États-Unis ?

Parler de « dernier gardien de la morale » est fort. C'est presque une formule de série télé. Mais quand on regarde ce qui se passe outre-Atlantique entre Anthropic et l'administration Trump, on se pose la question. Pendant que OpenAI signe des accords avec le Pentagone, la firme de Dario Amodei claque la porte. S'agit-il d'un coup de com', d'une naïveté dangereuse ou d'une vraie ligne rouge éthique ? Il faut regarder au-delà du buzz politique pour comprendre les enjeux réels.

Zhipu AI GLM-5
Lancement du modèle GLM-5 par Zhipu AI

Zhipu AI dévoile GLM-5 : un modèle open-source formé sans puces NVIDIA

L'écosystème de l'intelligence artificielle vient de vivre un séisme discret mais majeur. Zhipu AI (Z.ai) a officialisé le lancement de GLM-5, un nouveau modèle de langage qui ne se contente pas d'égaler les leaders du marché sur le papier : il change les règles du jeu. Avec une architecture Mixture-of-Experts de 744 milliards de paramètres, ce modèle open-source se distingue par une prouesse technique inédite à cette échelle : un entraînement réalisé intégralement sur des puces chinoises.