
Répéter son prompt : la technique de Google pour booster la précision des LLM
Dans le prompt engineering, on cherche souvent des solutions complexes. Pourtant, une étude de Google Research, publiée en décembre 2025, démontre qu'il suffit parfois de peu. Les chercheurs ont mis en évidence une méthode d'une simplicité déconcertante : coller le prompt deux fois dans la même requête. Cette approche, testée sur sept modèles majeurs, améliore significativement leurs performances. Explications.
En quoi consiste cette technique de répétition ?
L'idée tient en une phrase : on transforme l'entrée en . Concrètement, si vous posez une question à un modèle de langage, vous la répétez mot pour mot avant d'attendre la réponse. Pas de reformulation, pas de chaînage de pensée (qu'on appelle Chain of Thought), juste une duplication brute.
Cette technique, baptisée "prompt repetition", s'applique à tout type de requête. Elle ne demande aucune compétence technique particulière et fonctionne immédiatement, sans modification du modèle.
Pourquoi une méthode aussi simple fonctionne-t-elle ?
L'efficacité de cette technique repose sur une caractéristique fondamentale des modèles de langage actuels. La plupart sont entraînés comme des modèles dits "causaux", ce qui signifie qu'ils traitent le texte de gauche à droite. Un token ne peut "voir" que les tokens qui le précèdent.
Cette architecture crée une forme de "tunnel de vision". Lorsque le modèle lit une longue question, il peut perdre le fil des informations du début arrivé à la fin. En répétant le prompt, la deuxième occurrence peut assister à tous les tokens de la première. Cela simule une forme d'attention bidirectionnelle, comme si le modèle avait une seconde chance de comprendre le contexte dans son ensemble.
Quels résultats les chercheurs ont-ils obtenus ?
L'étude, intitulée "Prompt Repetition Improves Non-Reasoning LLMs", a été menée sur un large panel. Les chercheurs ont testé la méthode sur sept modèles différents, des plus légers comme Gemini 2.0 Flash-Lite aux plus puissants comme Claude 3.7 Sonnet et GPT-4o. Ils ont utilisé sept benchmarks reconnus, couvrant la compréhension, le raisonnement et la récupération d'information.
Le constat est sans appel : la répétition du prompt a remporté 47 victoires sur 70 tests comparatifs, sans aucune défaite. Les gains les plus spectaculaires concernent les tâches de récupération précise. Sur un benchmark personnalisé où il fallait identifier le 25e nom d'une liste de 50, la précision de Gemini 2.0 Flash-Lite a bondi de 21,33 % à 97,33 %. Une amélioration spectaculaire, mais qui s'explique techniquement.
Un tableau comparatif éloquent
| Modèle | Tâche (Benchmark) | Précision sans répétition | Précision avec répétition |
|---|---|---|---|
| Gemini 2.0 Flash-Lite | Récupération | 21,33 % | 97,33 % |
| GPT-4o-mini | QCM | + de 10 % | + de 15 % |
| Claude 3.7 Sonnet | Raisonnement | Stable | Légère amélioration |
À quels modèles cette méthode s'applique-t-elle le mieux ?
Les résultats mettent en lumière une distinction cruciale. La technique est particulièrement efficace sur les modèles sans capacités de raisonnement explicite (Chain of Thought). Sur ces modèles, dits "non-reasoning", les gains sont substantiels, allant jusqu'à 76 % d'amélioration moyenne sur certaines tâches.
En revanche, son impact est marginal sur les modèles "reasoning". Ces modèles, entraînés pour décomposer les problèmes, reformulent déjà implicitement la question. La répétition externe n'apporte alors qu'un bénéfice limité. Pour un développeur ou un créateur utilisant des modèles rapides pour de l'extraction ou de la classification, c'est une aubaine.
La répétition de prompt a-t-elle un coût ?
C'est l'un des points forts de la méthode : elle est quasi-gratuite. On pourrait penser que doubler la longueur du prompt double le temps de réponse. Ce n'est pas le cas. Le traitement d'un modèle se divise en deux phases : le pré-remplissage (prefill), où le prompt est analysé, et le décodage, où la réponse est générée.
La phase de pré-remplissage est parallélisable sur GPU. Allonger le prompt n'impacte donc pas la latence perçue par l'utilisateur, ni le nombre de tokens générés. C'est ce que les auteurs appellent un "free lunch" : un gain de performance sans coût computationnel supplémentaire.
Comment utiliser cette technique au quotidien ?
L'application est triviale. Il suffit de copier votre prompt et de le coller à la suite de lui-même. Prenons un exemple concret. Si vous utilisez un modèle pour extraire des informations d'un texte long, vous pouvez structurer votre requête ainsi :
Pour les développeurs qui intègrent des LLM via API, cela se traduit par une simple concaténation de chaîne de caractères avant l'envoi. Aucune modification de l'architecture n'est nécessaire.
Quelles sont les limites à connaître ?
La simplicité de la méthode ne doit pas masquer ses contraintes. La première est liée à la fenêtre de contexte. Doubler le prompt double sa taille, ce qui peut poser problème avec des documents très longs.
De plus, l'efficacité est variable. Elle dépend de la nature de la tâche et de l'ordre des informations. La répétition ne remplacera jamais un prompt bien conçu pour les tâches complexes. Enfin, l'étude a testé jusqu'à trois répétitions, mais au-delà, les rendements décroissants sont probables. Il ne s'agit pas de répéter le prompt dix fois en espérant un résultat miraculeux !
Sources
- Prompt Repetition Improves Non-Reasoning LLMs – arXiv : L'article scientifique original, publié par les chercheurs de Google Research.
- This new, dead simple prompt technique boosts accuracy – VentureBeat : Une analyse détaillée des résultats et de leurs implications.
- Google's "Free Lunch" for LLMs – DataSci Ocean : Une explication technique approfondie du mécanisme d'attention causale.
Est-ce que répéter un prompt deux fois fonctionne avec tous les modèles de langage ?
La technique a été testée avec succès sur les modèles majeurs comme Gemini, GPT-4o, Claude et DeepSeek. Cependant, son efficacité varie. Elle est très prononcée sur les modèles rapides ("non-reasoning") et plus marginale sur les modèles de raisonnement ("reasoning").
Pourquoi la répétition du prompt améliore-t-elle la précision des réponses ?
Les modèles de langage traitent le texte de manière séquentielle (de gauche à droite). En répétant le prompt, la deuxième copie peut assister à tous les tokens de la première. Cela permet au modèle de "revoir" le contexte dans son ensemble avant de répondre, simulant une meilleure compréhension.
Faut-il répéter le prompt plus de deux fois pour un meilleur résultat ?
L'étude de Google indique que répéter le prompt deux ou trois fois peut être bénéfique selon la tâche. Cependant, au-delà de trois répétitions, les gains deviennent négligeables et l'on risque de saturer la fenêtre de contexte du modèle.





