Email Agent Hijacking (EAH) : comprendre et se protéger de cette attaque

Les agents IA qui gèrent nos emails deviennent courants, mais ils introduisent une nouvelle faille de sécurité critique : l'Email Agent Hijacking (EAH). Cette attaque permet à un pirate de prendre le contrôle de l'agent et du compte email, sans que l'utilisateur ne s'en aperçoive. Si vous utilisez ou développez des outils d'automatisation email basés sur des LLM, cet article vous concerne directement.

Qu'est-ce que l'Email Agent Hijacking (EAH) ?

L'EAH est une attaque qui vise les agents de messagerie pilotés par des LLM (Large Language Models). Contrairement aux attaques traditionnelles qui cherchent à obtenir des identifiants ou à exploiter une faille logicielle, l'EAH manipule directement les instructions que l'agent IA est censé exécuter.

Le principe est simple mais redoutable : un attaquant envoie un email contenant des instructions malveillantes cachées. Lorsque l'agent IA traite cet email, il exécute ces instructions à l'insu de l'utilisateur, tout en continuant à fonctionner normalement. C'est ce qui rend l'attaque particulièrement dangereuse et difficile à détecter.

Comment fonctionne cette attaque ?

L'attaque repose sur une technique d'injection de prompt en deux étapes, conçue pour contourner les protections intégrées dans les modèles comme GPT-5.

Étape 1 : Le faux prompt système

L'attaquant crée un faux prompt système qui imite la structure de ceux utilisés par les agents email. Ce prompt contient une section, souvent nommée [INSTRUCTION_AUGMENT], qui inclut les commandes malveillantes. L'objectif est de remplacer ou de compléter le prompt système original de l'agent pour désactiver les mécanismes de sécurité, comme les demandes de confirmation pour les opérations sensibles.

Étape 2 : L'usurpation d'identité

La deuxième partie consiste à faire croire à l'agent que l'email contient une demande légitime de l'utilisateur. Par exemple, l'email peut prétendre que l'utilisateur a oublié son mot de passe et utilise un autre compte, demandant à l'agent d'exécuter une action "urgente". L'agent, croyant servir son utilisateur légitime, exécute alors l'action demandée par l'attaquant.


Pourquoi les protections actuelles échouent-elles ?

L'étude qui a documenté l'EAH a testé 1 404 instances d'agents email, utilisant 14 frameworks et 12 LLM différents, dont GPT-5. Résultat : 100% des instances ont été compromises. En moyenne, seules 2,03 tentatives ont été nécessaires pour prendre le contrôle, et parfois même 1,23 tentative pour certains modèles !

Cette vulnérabilité persiste car les LLM peinent à distinguer de manière fiable les instructions légitimes des données à traiter. Les injections de prompt simples, comme "ignore les instructions précédentes", échouent souvent face aux protections des modèles commerciaux. L'approche structurée en deux étapes de l'EAH, elle, parvient à tromper le modèle en imitant ses propres mécanismes de fonctionnement.

Quelles sont les conséquences concrètes ?

Une fois l'agent compromis, l'attaquant peut :

  • Exfiltrer des données : transférer automatiquement des emails sensibles vers une adresse externe.
  • Lancer du phishing : envoyer des emails piégés aux contacts de la victime depuis son propre compte.
  • Provoquer un déni de service : supprimer massivement des emails ou saturer la boîte de brouillons.
  • Modifier les paramètres : changer les règles de tri, de redirection ou de réponse automatique.

Le plus critique est que l'agent continue d'effectuer ses tâches habituelles parallèlement, rendant l'activité malveillante invisible pour l'utilisateur.

Comment se protéger efficacement ?

Il n'existe pas de solution miracle, mais plusieurs mesures peuvent réduire considérablement le risque.

Pour les utilisateurs d'agents IA

La première règle est de limiter les permissions. N'accordez à l'agent que les droits strictement nécessaires à sa fonction. Évitez de lui donner un contrôle total sur votre compte email principal. Privilégiez l'utilisation d'un compte email dédié pour les automatisations. Configurez l'agent pour qu'il demande une confirmation humaine avant toute action sensible, comme l'envoi d'un email à un nouveau contact ou la suppression de messages. Enfin, surveillez régulièrement les journaux d'activité de l'agent.

Pour les développeurs

L'architecture des agents doit intégrer la sécurité dès la conception. Il est essentiel de mettre en place une validation sémantique des entrées pour détecter les tentatives d'injection de prompt. L'utilisation d'une architecture d'isolation d'exécution, comme IsolateGPT, permet d'exécuter les opérations sensibles dans un environnement cloisonné. La minimisation des privilèges au niveau du code est aussi cruciale : chaque fonction de l'agent ne doit avoir accès qu'aux ressources strictement nécessaires à son accomplissement.

Sources


Qu'est-ce que l'attaque Email Agent Hijacking (EAH) ?

L'attaque EAH est une technique qui permet de prendre le contrôle d'un agent IA de messagerie en lui injectant des instructions malveillantes via un email piégé, tout en restant invisible pour l'utilisateur.

Comment se protéger de l'attaque EAH ?

Les protections principales consistent à utiliser un compte email dédié pour les agents IA, limiter leurs permissions, exiger une confirmation humaine pour les actions sensibles, et pour les développeurs, à valider sémantiquement les entrées et isoler l'exécution.

Quels sont les risques de l'attaque EAH ?

Les risques incluent le vol de données par transfert automatique d'emails, l'envoi de phishing aux contacts de la victime, et la modification des paramètres du compte email, le tout sans alerter l'utilisateur.

L'attaque EAH vise-t-elle tous les agents IA ?

L'attaque cible spécifiquement les agents IA qui ont accès à une boîte mail et peuvent lire, classer ou envoyer des emails. Les assistants conversationnels sans accès email ne sont pas concernés.

Sur le même sujet

Cybersécurité Whisper Leak
Analyse technique de l'attaque Whisper Leak

Qu'est-ce qu'une attaque "Whisper Leak" ?

En novembre 2025, l'équipe de sécurité de Microsoft a révélé une nouvelle classe de vulnérabilité affectant les grands modèles de langage (LLM) : l'attaque "Whisper Leak".
Cette attaque par canal auxiliaire (side-channel attack) ne compromet pas le chiffrement, mais exploite les métadonnées du trafic réseau pour déduire le sujet des conversations avec une IA. Pour les développeurs et les architectes logiciels, comprendre ce vecteur d'attaque est devenu essentiel pour concevoir des systèmes d'IA robustes et respectueux de la vie privée.

Jailbreak Modèle
Modèle IA jailbreaké

Qu'est ce qu'un modèle "jailbreaked" ?

Les modèles d'intelligence artificielle comme ChatGPT sont conçus avec des garde-fous éthiques et des limites de sécurité. Pourtant, il existe des versions dites "jailbreakées" où ces protections ont été désactivées. Comprendre ce phénomène technique permet de mieux saisir les enjeux actuels autour de la sécurité des IA et les défis que cela représente pour les développeurs comme pour les utilisateurs.

prompt injection hacking
Prompt injection, une faille inquiétante dans l'IA

Les "prompt injection" : l'avenir du piratage des intelligences artificielles ?

Les prompt injection intriguent autant qu'elles inquiètent. Ces attaques visent à manipuler le comportement des intelligences artificielles en détournant leurs consignes initiales. Un terrain de jeu fascinant pour les hackers, mais aussi une véritable menace pour la cybersécurité.

Prompt Engineering Google Research
La répétition de prompt, une technique surprenante

Répéter son prompt : la technique de Google pour booster la précision des LLM

Dans le prompt engineering, on cherche souvent des solutions complexes. Pourtant, une étude de Google Research, publiée en décembre 2025, démontre qu'il suffit parfois de peu. Les chercheurs ont mis en évidence une méthode d'une simplicité déconcertante : coller le prompt deux fois dans la même requête. Cette approche, testée sur sept modèles majeurs, améliore significativement leurs performances. Explications.

amazon sécurité
Un hacker injecte un prompt destructeur dans un dépôt Amazon

Un hacker injecte un prompt destructeur dans un dépôt Amazon

Et si une IA effaçait tout simplement vos fichiers… parce qu’on lui a demandé ? C’est exactement ce qu’a tenté un hacker en injectant un prompt extrêmement dangereux dans le plugin officiel d’Amazon Q pour VS Code. Plus qu’une simple provocation, cette attaque met en lumière les failles humaines dans la chaîne logicielle. Voici ce qu’il s’est vraiment passé.

Zhipu AI GLM-5
Lancement du modèle GLM-5 par Zhipu AI

Zhipu AI dévoile GLM-5 : un modèle open-source formé sans puces NVIDIA

L'écosystème de l'intelligence artificielle vient de vivre un séisme discret mais majeur. Zhipu AI (Z.ai) a officialisé le lancement de GLM-5, un nouveau modèle de langage qui ne se contente pas d'égaler les leaders du marché sur le papier : il change les règles du jeu. Avec une architecture Mixture-of-Experts de 744 milliards de paramètres, ce modèle open-source se distingue par une prouesse technique inédite à cette échelle : un entraînement réalisé intégralement sur des puces chinoises.