La répétition de prompt, une technique surprenante

Répéter son prompt : la technique de Google pour booster la précision des LLM

Dans le prompt engineering, on cherche souvent des solutions complexes. Pourtant, une étude de Google Research, publiée en décembre 2025, démontre qu'il suffit parfois de peu. Les chercheurs ont mis en évidence une méthode d'une simplicité déconcertante : coller le prompt deux fois dans la même requête. Cette approche, testée sur sept modèles majeurs, améliore significativement leurs performances. Explications.

En quoi consiste cette technique de répétition ?

L'idée tient en une phrase : on transforme l'entrée en . Concrètement, si vous posez une question à un modèle de langage, vous la répétez mot pour mot avant d'attendre la réponse. Pas de reformulation, pas de chaînage de pensée (qu'on appelle Chain of Thought), juste une duplication brute.

Cette technique, baptisée "prompt repetition", s'applique à tout type de requête. Elle ne demande aucune compétence technique particulière et fonctionne immédiatement, sans modification du modèle.

Pourquoi une méthode aussi simple fonctionne-t-elle ?

L'efficacité de cette technique repose sur une caractéristique fondamentale des modèles de langage actuels. La plupart sont entraînés comme des modèles dits "causaux", ce qui signifie qu'ils traitent le texte de gauche à droite. Un token ne peut "voir" que les tokens qui le précèdent.

Cette architecture crée une forme de "tunnel de vision". Lorsque le modèle lit une longue question, il peut perdre le fil des informations du début arrivé à la fin. En répétant le prompt, la deuxième occurrence peut assister à tous les tokens de la première. Cela simule une forme d'attention bidirectionnelle, comme si le modèle avait une seconde chance de comprendre le contexte dans son ensemble.

Quels résultats les chercheurs ont-ils obtenus ?

L'étude, intitulée "Prompt Repetition Improves Non-Reasoning LLMs", a été menée sur un large panel. Les chercheurs ont testé la méthode sur sept modèles différents, des plus légers comme Gemini 2.0 Flash-Lite aux plus puissants comme Claude 3.7 Sonnet et GPT-4o. Ils ont utilisé sept benchmarks reconnus, couvrant la compréhension, le raisonnement et la récupération d'information.

Le constat est sans appel : la répétition du prompt a remporté 47 victoires sur 70 tests comparatifs, sans aucune défaite. Les gains les plus spectaculaires concernent les tâches de récupération précise. Sur un benchmark personnalisé où il fallait identifier le 25e nom d'une liste de 50, la précision de Gemini 2.0 Flash-Lite a bondi de 21,33 % à 97,33 %. Une amélioration spectaculaire, mais qui s'explique techniquement.

Un tableau comparatif éloquent

ModèleTâche (Benchmark)Précision sans répétitionPrécision avec répétition
Gemini 2.0 Flash-LiteRécupération21,33 %97,33 %
GPT-4o-miniQCM+ de 10 %+ de 15 %
Claude 3.7 SonnetRaisonnementStableLégère amélioration

À quels modèles cette méthode s'applique-t-elle le mieux ?

Les résultats mettent en lumière une distinction cruciale. La technique est particulièrement efficace sur les modèles sans capacités de raisonnement explicite (Chain of Thought). Sur ces modèles, dits "non-reasoning", les gains sont substantiels, allant jusqu'à 76 % d'amélioration moyenne sur certaines tâches.

En revanche, son impact est marginal sur les modèles "reasoning". Ces modèles, entraînés pour décomposer les problèmes, reformulent déjà implicitement la question. La répétition externe n'apporte alors qu'un bénéfice limité. Pour un développeur ou un créateur utilisant des modèles rapides pour de l'extraction ou de la classification, c'est une aubaine.

La répétition de prompt a-t-elle un coût ?

C'est l'un des points forts de la méthode : elle est quasi-gratuite. On pourrait penser que doubler la longueur du prompt double le temps de réponse. Ce n'est pas le cas. Le traitement d'un modèle se divise en deux phases : le pré-remplissage (prefill), où le prompt est analysé, et le décodage, où la réponse est générée.

La phase de pré-remplissage est parallélisable sur GPU. Allonger le prompt n'impacte donc pas la latence perçue par l'utilisateur, ni le nombre de tokens générés. C'est ce que les auteurs appellent un "free lunch" : un gain de performance sans coût computationnel supplémentaire.

Comment utiliser cette technique au quotidien ?

L'application est triviale. Il suffit de copier votre prompt et de le coller à la suite de lui-même. Prenons un exemple concret. Si vous utilisez un modèle pour extraire des informations d'un texte long, vous pouvez structurer votre requête ainsi :

Voici un texte long... Quelle est la date clé mentionnée ? Quelle est la date clé mentionnée ?

Pour les développeurs qui intègrent des LLM via API, cela se traduit par une simple concaténation de chaîne de caractères avant l'envoi. Aucune modification de l'architecture n'est nécessaire.

Quelles sont les limites à connaître ?

La simplicité de la méthode ne doit pas masquer ses contraintes. La première est liée à la fenêtre de contexte. Doubler le prompt double sa taille, ce qui peut poser problème avec des documents très longs.

De plus, l'efficacité est variable. Elle dépend de la nature de la tâche et de l'ordre des informations. La répétition ne remplacera jamais un prompt bien conçu pour les tâches complexes. Enfin, l'étude a testé jusqu'à trois répétitions, mais au-delà, les rendements décroissants sont probables. Il ne s'agit pas de répéter le prompt dix fois en espérant un résultat miraculeux !

Sources


Est-ce que répéter un prompt deux fois fonctionne avec tous les modèles de langage ?

La technique a été testée avec succès sur les modèles majeurs comme Gemini, GPT-4o, Claude et DeepSeek. Cependant, son efficacité varie. Elle est très prononcée sur les modèles rapides ("non-reasoning") et plus marginale sur les modèles de raisonnement ("reasoning").

Pourquoi la répétition du prompt améliore-t-elle la précision des réponses ?

Les modèles de langage traitent le texte de manière séquentielle (de gauche à droite). En répétant le prompt, la deuxième copie peut assister à tous les tokens de la première. Cela permet au modèle de "revoir" le contexte dans son ensemble avant de répondre, simulant une meilleure compréhension.

Faut-il répéter le prompt plus de deux fois pour un meilleur résultat ?

L'étude de Google indique que répéter le prompt deux ou trois fois peut être bénéfique selon la tâche. Cependant, au-delà de trois répétitions, les gains deviennent négligeables et l'on risque de saturer la fenêtre de contexte du modèle.

Sur le même sujet

Température Paramètre
Comprendre la température en intelligence artificielle

Qu'est ce que la température en intelligence artificielle ?

La température est un paramètre fondamental des modèles d'intelligence artificielle génératifs, comme les grands modèles de langage (LLM). Elle agit comme un réglage qui détermine à quel point les réponses de l'IA seront créatives et variées ou, au contraire, prévisibles et factuelles. Pour les développeurs, les créatifs ou tout utilisateur curieux, comprendre ce levier est essentiel pour obtenir des résultats pertinents, qu'il s'agisse de générer du code, du texte créatif ou des réponses précises.

mistral mistral ai
Logo Mistral AI sur fond bleu

Qu’est-ce que Mistral AI ?

Mistral AI est une startup française qui veut jouer dans la cour des grands de l’intelligence artificielle. À travers une approche radicalement ouverte et des modèles performants comme Mistral 7B ou Mixtral, elle ambitionne de concurrencer les géants comme OpenAI ou Meta. Mais que fait vraiment Mistral AI, et pourquoi tout le monde en parle ?

reddit google
Accord Reddit-Google pour l'entraînement des IA

L'accord entre Reddit et Google : quand les discussions communautaires deviennent donnée d'entraînement

En février 2024, une annonce discrète mais non moins importante a secoué le monde de l'intelligence artificielle : Reddit et Google ont signé un accord stratégique. Cet accord permet à Google d'utiliser l'ensemble du contenu public de Reddit pour entraîner ses modèles d'IA. Une décision qui transforme les discussions quotidiennes de millions d'utilisateurs en matière première pour l'IA. Voici ce que cet accord change et pourquoi il représente un tournant majeur dans l'écosystème numérique.

Jailbreak Modèle
Modèle IA jailbreaké

Qu'est ce qu'un modèle "jailbreaked" ?

Les modèles d'intelligence artificielle comme ChatGPT sont conçus avec des garde-fous éthiques et des limites de sécurité. Pourtant, il existe des versions dites "jailbreakées" où ces protections ont été désactivées. Comprendre ce phénomène technique permet de mieux saisir les enjeux actuels autour de la sécurité des IA et les défis que cela représente pour les développeurs comme pour les utilisateurs.

Sécurité informatique Agent IA

Email Agent Hijacking (EAH) : comprendre et se protéger de cette attaque

Les agents IA qui gèrent nos emails deviennent courants, mais ils introduisent une nouvelle faille de sécurité critique : l'Email Agent Hijacking (EAH). Cette attaque permet à un pirate de prendre le contrôle de l'agent et du compte email, sans que l'utilisateur ne s'en aperçoive. Si vous utilisez ou développez des outils d'automatisation email basés sur des LLM, cet article vous concerne directement.

Gemini comparaison IA
ChatGPT vs Gemini vs Claude : Guide comparatif

ChatGPT, Gemini, Claude : Quel modèle pour quelle tâche ?

Choisir entre ChatGPT, Claude et Gemini n'est plus une question de préférence, mais de spécialisation. En 2026, chaque modèle a trouvé ses domaines d'excellence : Claude domine le code, Gemini excelle en analyse scientifique, tandis que GPT-5 reste pertinent pour les tâches généralistes. Ce guide vous aide à identifier le bon outil pour chaque situation, en vous appuyant sur les benchmarks objectifs et les retours des communautés techniques.