
Email Agent Hijacking (EAH) : comprendre et se protéger de cette attaque
Les agents IA qui gèrent nos emails deviennent courants, mais ils introduisent une nouvelle faille de sécurité critique : l'Email Agent Hijacking (EAH). Cette attaque permet à un pirate de prendre le contrôle de l'agent et du compte email, sans que l'utilisateur ne s'en aperçoive. Si vous utilisez ou développez des outils d'automatisation email basés sur des LLM, cet article vous concerne directement.
Qu'est-ce que l'Email Agent Hijacking (EAH) ?
L'EAH est une attaque qui vise les agents de messagerie pilotés par des LLM (Large Language Models). Contrairement aux attaques traditionnelles qui cherchent à obtenir des identifiants ou à exploiter une faille logicielle, l'EAH manipule directement les instructions que l'agent IA est censé exécuter.
Le principe est simple mais redoutable : un attaquant envoie un email contenant des instructions malveillantes cachées. Lorsque l'agent IA traite cet email, il exécute ces instructions à l'insu de l'utilisateur, tout en continuant à fonctionner normalement. C'est ce qui rend l'attaque particulièrement dangereuse et difficile à détecter.
Comment fonctionne cette attaque ?
L'attaque repose sur une technique d'injection de prompt en deux étapes, conçue pour contourner les protections intégrées dans les modèles comme GPT-5.
Étape 1 : Le faux prompt système
L'attaquant crée un faux prompt système qui imite la structure de ceux utilisés par les agents email. Ce prompt contient une section, souvent nommée [INSTRUCTION_AUGMENT], qui inclut les commandes malveillantes. L'objectif est de remplacer ou de compléter le prompt système original de l'agent pour désactiver les mécanismes de sécurité, comme les demandes de confirmation pour les opérations sensibles.
Étape 2 : L'usurpation d'identité
La deuxième partie consiste à faire croire à l'agent que l'email contient une demande légitime de l'utilisateur. Par exemple, l'email peut prétendre que l'utilisateur a oublié son mot de passe et utilise un autre compte, demandant à l'agent d'exécuter une action "urgente". L'agent, croyant servir son utilisateur légitime, exécute alors l'action demandée par l'attaquant.

Pourquoi les protections actuelles échouent-elles ?
L'étude qui a documenté l'EAH a testé 1 404 instances d'agents email, utilisant 14 frameworks et 12 LLM différents, dont GPT-5. Résultat : 100% des instances ont été compromises. En moyenne, seules 2,03 tentatives ont été nécessaires pour prendre le contrôle, et parfois même 1,23 tentative pour certains modèles !
Cette vulnérabilité persiste car les LLM peinent à distinguer de manière fiable les instructions légitimes des données à traiter. Les injections de prompt simples, comme "ignore les instructions précédentes", échouent souvent face aux protections des modèles commerciaux. L'approche structurée en deux étapes de l'EAH, elle, parvient à tromper le modèle en imitant ses propres mécanismes de fonctionnement.
Quelles sont les conséquences concrètes ?
Une fois l'agent compromis, l'attaquant peut :
- Exfiltrer des données : transférer automatiquement des emails sensibles vers une adresse externe.
- Lancer du phishing : envoyer des emails piégés aux contacts de la victime depuis son propre compte.
- Provoquer un déni de service : supprimer massivement des emails ou saturer la boîte de brouillons.
- Modifier les paramètres : changer les règles de tri, de redirection ou de réponse automatique.
Le plus critique est que l'agent continue d'effectuer ses tâches habituelles parallèlement, rendant l'activité malveillante invisible pour l'utilisateur.
Comment se protéger efficacement ?
Il n'existe pas de solution miracle, mais plusieurs mesures peuvent réduire considérablement le risque.
Pour les utilisateurs d'agents IA
La première règle est de limiter les permissions. N'accordez à l'agent que les droits strictement nécessaires à sa fonction. Évitez de lui donner un contrôle total sur votre compte email principal. Privilégiez l'utilisation d'un compte email dédié pour les automatisations. Configurez l'agent pour qu'il demande une confirmation humaine avant toute action sensible, comme l'envoi d'un email à un nouveau contact ou la suppression de messages. Enfin, surveillez régulièrement les journaux d'activité de l'agent.
Pour les développeurs
L'architecture des agents doit intégrer la sécurité dès la conception. Il est essentiel de mettre en place une validation sémantique des entrées pour détecter les tentatives d'injection de prompt. L'utilisation d'une architecture d'isolation d'exécution, comme IsolateGPT, permet d'exécuter les opérations sensibles dans un environnement cloisonné. La minimisation des privilèges au niveau du code est aussi cruciale : chaque fonction de l'agent ne doit avoir accès qu'aux ressources strictement nécessaires à son accomplissement.
Sources
- Control at Stake: Evaluating the Security Landscape of LLM-Driven Email Agents : Éude originale documentant l'attaque EAH et ses résultats sur 1 404 instances d'agents email.
- Email Agent Hijacking (EAH) - Emergent Mind : Synthèse détaillée du mécanisme d'attaque et de ses implications.
- IsolateGPT: An Execution Isolation Architecture for LLM-Based Agentic Systems : Proposition d'architecture pour isoler l'exécution des agents LLM.
Qu'est-ce que l'attaque Email Agent Hijacking (EAH) ?
L'attaque EAH est une technique qui permet de prendre le contrôle d'un agent IA de messagerie en lui injectant des instructions malveillantes via un email piégé, tout en restant invisible pour l'utilisateur.
Comment se protéger de l'attaque EAH ?
Les protections principales consistent à utiliser un compte email dédié pour les agents IA, limiter leurs permissions, exiger une confirmation humaine pour les actions sensibles, et pour les développeurs, à valider sémantiquement les entrées et isoler l'exécution.
Quels sont les risques de l'attaque EAH ?
Les risques incluent le vol de données par transfert automatique d'emails, l'envoi de phishing aux contacts de la victime, et la modification des paramètres du compte email, le tout sans alerter l'utilisateur.
L'attaque EAH vise-t-elle tous les agents IA ?
L'attaque cible spécifiquement les agents IA qui ont accès à une boîte mail et peuvent lire, classer ou envoyer des emails. Les assistants conversationnels sans accès email ne sont pas concernés.





