La répétition de prompt, une technique surprenante

Répéter son prompt : la technique de Google pour booster la précision des LLM

Dans le prompt engineering, on cherche souvent des solutions complexes. Pourtant, une étude de Google Research, publiée en décembre 2025, démontre qu'il suffit parfois de peu. Les chercheurs ont mis en évidence une méthode d'une simplicité déconcertante : coller le prompt deux fois dans la même requête. Cette approche, testée sur sept modèles majeurs, améliore significativement leurs performances. Explications.

En quoi consiste cette technique de répétition ?

L'idée tient en une phrase : on transforme l'entrée en . Concrètement, si vous posez une question à un modèle de langage, vous la répétez mot pour mot avant d'attendre la réponse. Pas de reformulation, pas de chaînage de pensée (qu'on appelle Chain of Thought), juste une duplication brute.

Cette technique, baptisée "prompt repetition", s'applique à tout type de requête. Elle ne demande aucune compétence technique particulière et fonctionne immédiatement, sans modification du modèle.

Pourquoi une méthode aussi simple fonctionne-t-elle ?

L'efficacité de cette technique repose sur une caractéristique fondamentale des modèles de langage actuels. La plupart sont entraînés comme des modèles dits "causaux", ce qui signifie qu'ils traitent le texte de gauche à droite. Un token ne peut "voir" que les tokens qui le précèdent.

Cette architecture crée une forme de "tunnel de vision". Lorsque le modèle lit une longue question, il peut perdre le fil des informations du début arrivé à la fin. En répétant le prompt, la deuxième occurrence peut assister à tous les tokens de la première. Cela simule une forme d'attention bidirectionnelle, comme si le modèle avait une seconde chance de comprendre le contexte dans son ensemble.

Quels résultats les chercheurs ont-ils obtenus ?

L'étude, intitulée "Prompt Repetition Improves Non-Reasoning LLMs", a été menée sur un large panel. Les chercheurs ont testé la méthode sur sept modèles différents, des plus légers comme Gemini 2.0 Flash-Lite aux plus puissants comme Claude 3.7 Sonnet et GPT-4o. Ils ont utilisé sept benchmarks reconnus, couvrant la compréhension, le raisonnement et la récupération d'information.

Le constat est sans appel : la répétition du prompt a remporté 47 victoires sur 70 tests comparatifs, sans aucune défaite. Les gains les plus spectaculaires concernent les tâches de récupération précise. Sur un benchmark personnalisé où il fallait identifier le 25e nom d'une liste de 50, la précision de Gemini 2.0 Flash-Lite a bondi de 21,33 % à 97,33 %. Une amélioration spectaculaire, mais qui s'explique techniquement.

Un tableau comparatif éloquent

ModèleTâche (Benchmark)Précision sans répétitionPrécision avec répétition
Gemini 2.0 Flash-LiteRécupération21,33 %97,33 %
GPT-4o-miniQCM+ de 10 %+ de 15 %
Claude 3.7 SonnetRaisonnementStableLégère amélioration

À quels modèles cette méthode s'applique-t-elle le mieux ?

Les résultats mettent en lumière une distinction cruciale. La technique est particulièrement efficace sur les modèles sans capacités de raisonnement explicite (Chain of Thought). Sur ces modèles, dits "non-reasoning", les gains sont substantiels, allant jusqu'à 76 % d'amélioration moyenne sur certaines tâches.

En revanche, son impact est marginal sur les modèles "reasoning". Ces modèles, entraînés pour décomposer les problèmes, reformulent déjà implicitement la question. La répétition externe n'apporte alors qu'un bénéfice limité. Pour un développeur ou un créateur utilisant des modèles rapides pour de l'extraction ou de la classification, c'est une aubaine.

La répétition de prompt a-t-elle un coût ?

C'est l'un des points forts de la méthode : elle est quasi-gratuite. On pourrait penser que doubler la longueur du prompt double le temps de réponse. Ce n'est pas le cas. Le traitement d'un modèle se divise en deux phases : le pré-remplissage (prefill), où le prompt est analysé, et le décodage, où la réponse est générée.

La phase de pré-remplissage est parallélisable sur GPU. Allonger le prompt n'impacte donc pas la latence perçue par l'utilisateur, ni le nombre de tokens générés. C'est ce que les auteurs appellent un "free lunch" : un gain de performance sans coût computationnel supplémentaire.

Comment utiliser cette technique au quotidien ?

L'application est triviale. Il suffit de copier votre prompt et de le coller à la suite de lui-même. Prenons un exemple concret. Si vous utilisez un modèle pour extraire des informations d'un texte long, vous pouvez structurer votre requête ainsi :

Voici un texte long... Quelle est la date clé mentionnée ? Quelle est la date clé mentionnée ?

Pour les développeurs qui intègrent des LLM via API, cela se traduit par une simple concaténation de chaîne de caractères avant l'envoi. Aucune modification de l'architecture n'est nécessaire.

Quelles sont les limites à connaître ?

La simplicité de la méthode ne doit pas masquer ses contraintes. La première est liée à la fenêtre de contexte. Doubler le prompt double sa taille, ce qui peut poser problème avec des documents très longs.

De plus, l'efficacité est variable. Elle dépend de la nature de la tâche et de l'ordre des informations. La répétition ne remplacera jamais un prompt bien conçu pour les tâches complexes. Enfin, l'étude a testé jusqu'à trois répétitions, mais au-delà, les rendements décroissants sont probables. Il ne s'agit pas de répéter le prompt dix fois en espérant un résultat miraculeux !

Sources


Est-ce que répéter un prompt deux fois fonctionne avec tous les modèles de langage ?

La technique a été testée avec succès sur les modèles majeurs comme Gemini, GPT-4o, Claude et DeepSeek. Cependant, son efficacité varie. Elle est très prononcée sur les modèles rapides ("non-reasoning") et plus marginale sur les modèles de raisonnement ("reasoning").

Pourquoi la répétition du prompt améliore-t-elle la précision des réponses ?

Les modèles de langage traitent le texte de manière séquentielle (de gauche à droite). En répétant le prompt, la deuxième copie peut assister à tous les tokens de la première. Cela permet au modèle de "revoir" le contexte dans son ensemble avant de répondre, simulant une meilleure compréhension.

Faut-il répéter le prompt plus de deux fois pour un meilleur résultat ?

L'étude de Google indique que répéter le prompt deux ou trois fois peut être bénéfique selon la tâche. Cependant, au-delà de trois répétitions, les gains deviennent négligeables et l'on risque de saturer la fenêtre de contexte du modèle.

Sur le même sujet

mistral mistral ai
Logo Mistral AI sur fond bleu

Qu’est-ce que Mistral AI ?

Mistral AI est une startup française qui veut jouer dans la cour des grands de l’intelligence artificielle. À travers une approche radicalement ouverte et des modèles performants comme Mistral 7B ou Mixtral, elle ambitionne de concurrencer les géants comme OpenAI ou Meta. Mais que fait vraiment Mistral AI, et pourquoi tout le monde en parle ?

reddit google
Accord Reddit-Google pour l'entraînement des IA

L'accord entre Reddit et Google : quand les discussions communautaires deviennent donnée d'entraînement

En février 2024, une annonce discrète mais non moins importante a secoué le monde de l'intelligence artificielle : Reddit et Google ont signé un accord stratégique. Cet accord permet à Google d'utiliser l'ensemble du contenu public de Reddit pour entraîner ses modèles d'IA. Une décision qui transforme les discussions quotidiennes de millions d'utilisateurs en matière première pour l'IA. Voici ce que cet accord change et pourquoi il représente un tournant majeur dans l'écosystème numérique.

Jailbreak Modèle
Modèle IA jailbreaké

Qu'est ce qu'un modèle "jailbreaked" ?

Les modèles d'intelligence artificielle comme ChatGPT sont conçus avec des garde-fous éthiques et des limites de sécurité. Pourtant, il existe des versions dites "jailbreakées" où ces protections ont été désactivées. Comprendre ce phénomène technique permet de mieux saisir les enjeux actuels autour de la sécurité des IA et les défis que cela représente pour les développeurs comme pour les utilisateurs.

alphaevolve deepmind
AlphaEvolve : l'IA auto-améliorante de Google

Qu'est-ce que AlphaEvolve, l'IA auto-améliorante de Google ?

Dévoilée en mai 2025 par Google DeepMind, AlphaEvolve est une intelligence artificielle conçue pour s'améliorer toute seule. Capable de générer, tester et optimiser du code de manière autonome, elle représente une avancée majeure dans le domaine du deep learning. Voici comment elle fonctionne, à quoi elle sert, et pourquoi elle fait tant parler d’elle.

Cybersécurité Whisper Leak
Analyse technique de l'attaque Whisper Leak

Qu'est-ce qu'une attaque "Whisper Leak" ?

En novembre 2025, l'équipe de sécurité de Microsoft a révélé une nouvelle classe de vulnérabilité affectant les grands modèles de langage (LLM) : l'attaque "Whisper Leak".
Cette attaque par canal auxiliaire (side-channel attack) ne compromet pas le chiffrement, mais exploite les métadonnées du trafic réseau pour déduire le sujet des conversations avec une IA. Pour les développeurs et les architectes logiciels, comprendre ce vecteur d'attaque est devenu essentiel pour concevoir des systèmes d'IA robustes et respectueux de la vie privée.

TRM Samsung
Le Tiny Recursive Model (TRM) de Samsung

Qu'est-ce qu'un Tiny Recursive Model (TRM) ?

Le domaine de l'intelligence artificielle est marqué par une tendance à l'augmentation constante de la taille des modèles. Ces IA aux milliards de paramètres, demandent des infrastructures considérables pour fonctionner.
Face à cette dynamique, une nouvelle approche émerge : le Tiny Recursive Model (TRM). Développé par les équipes de Samsung, ce modèle à l'architecture réduite suggère que l'efficacité en IA pourrait reposer sur d'autres principes que son nombre de paramètres.