
Des chercheurs font jouer des agents IA à Elden Ring
Des chercheurs ont récemment fait quelque chose qui semble sorti d’un scénario de science‑fiction : laisser des agents IA jouer à des jeux 3D complexes comme Dark Souls, Elden Ring ou encore Black Myth: Wukong. La différence avec les bots classiques ? Ces agents ne voient que l’écran, comme un joueur humain. Pas de carte, pas de coordonnées, pas de triche moteur. Juste des pixels, des décisions, et pas mal de_limites_.
Un agent qui ne regarde que l’écran
L’expérience vient d’une étude intitulée « How Far Can We Go with Pixels Alone? ». L’idée est simple : prendre un agent, l’empêcher d’accéder aux données internes du jeu (collision, positions, mini‑carte) et le forcer à naviguer uniquement à partir de l’image affichée à l’écran. C’est ce qu’ils appellent la navigation « screen‑only ».
Concrètement, l’agent capture les frames du jeu, repère des zones intéressantes (portes, couloirs, rampes) et en déduit une direction à suivre. Le but n’est pas de battre le jeu, mais de comprendre à quel point un système purement visuel peut se débrouiller dans des niveaux réels, denses et visuellement riches.
Comment l’agent trouve son chemin
L’agent repose sur un modèle visuel en deux étapes, déjà développé par les mêmes auteurs.
D’abord, un détecteur repère des points de transition spatiale (STP) dans chaque image : une porte entrouverte, le début d’un escalier, une arcade, tout ce qui ressemble à un passage possible. Ensuite, un deuxième module sélectionne le MSTP (Main Spatial Transition Point) — la sortie la plus prometteuse pour avancer vers l’objectif.
L’agent ne connaît pas la carte. Il se contente de suivre, image après image, ce point de passage principal, en convertissant cette décision en actions simples : tourner la caméra, avancer, ajuster sa trajectoire. C’est de la navigation à vue, guidée par des affordances visuelles — ces indices dans l’image qui suggèrent une action possible.
Dark Souls, Elden Ring et Black Myth: Wukong sur le banc de test
Pour vraiment stresser leur système, les chercheurs ne se sont pas contentés de petits labyrinthes de laboratoire. Ils ont pris des jeux commerciaux exigeants : Dark Souls I, Dark Souls III, Elden Ring et Black Myth: Wukong. Dans chaque jeu, ils ont défini des routes précises, allant d’un point de départ (typiquement un feu de camp ou un équivalent) vers une zone importante (porte de boss, sortie de niveau), découpées en six « milestones » visuels.
Les deux Dark Souls servent de jeux « core », car le modèle visuel avait déjà été entraîné dessus. Elden Ring et Black Myth: Wukong sont utilisés comme jeux de transfert : l’agent les découvre vraiment, sans entraînement spécifique sur ces titres. Tous les ennemis sont désactivés sur ces routes, pour se concentrer uniquement sur la navigation.
Des résultats prometteurs… mais loin d’un joueur humain
Alors, l’agent y arrive ? Sur certains segments, plutôt oui. Sur Dark Souls III, par exemple, la version la plus avancée de l’agent atteint environ la moitié des jalons sans intervention, avec quelques parcours complets sur une route donnée. Sur Black Myth: Wukong, les résultats sont même solides en termes de segments réussis.
Sur Elden Ring, en revanche, c’est plus compliqué. Aucune des variantes de l’agent ne parvient à enchaîner les six milestones de la route testée sans dépasser le temps imparti. Les taux de succès par segment restent modestes, avec beaucoup de timeouts et d’hésitations. Globalement, l’agent arrive souvent à avancer d’un point A à un point B sur une courte distance, mais il se perd quand il faut maintenir une stratégie sur plusieurs étapes.
Pourquoi ça bloque sur la durée ?
Le problème principal n’est pas de voir une porte, mais de comprendre où elle mène. L’agent n’a pas de carte mentale, pas de modèle 3D global du niveau. Il réagit à ce qu’il voit dans l’image instantanée, sans véritable planification à long terme. Résultat : il prend souvent des chemins qui semblent logiques localement, mais qui s’avèrent être des impasses ou des boucles.
De plus, le modèle visuel lui‑même a des biais et des zones d’aveugle. Quand il se trompe, l’agent peut rester coincé un moment à tourner en rond, d’où ces temps de segment très variables et ces échecs répétés sur certaines transitions.
Ce que cela change vraiment
Cette étude ne va pas transformer Elden Ring en jeu complètement jouable par une IA demain. Mais elle pose deux choses importantes.
D’abord, elle fournit un protocole sérieux pour évaluer la navigation purement visuelle dans des vrais jeux commerciaux, avec des métriques claires (succès par segment, temps, etc.). Ensuite, elle montre clairement que voir ne suffit pas : pour naviguer vraiment dans des environnements 3D complexes, il faudra combiner perception visuelle, mémoire et raisonnement spatial.
Pour les développeurs, ce type d’agent pourrait devenir un outil de test automatisé pour vérifier la lisibilité visuelle d’un niveau — en gros, vérifier qu’un joueur (ou un bot) peut comprendre où aller simplement en regardant. Pour la recherche, c’est un excellent point de départ pour construire des agents plus robustes, capables de se construire une carte mentale au lieu de seulement réagir aux pixels.
Mon avis
Ce qui est intéressant ici, c’est justement le côté « pas magique » des résultats. L’agent avance, mais bute vite sur les limites de la vision seule. Aucun sensationnalisme : les chercheurs le disent eux‑mêmes, un modèle purement visuel sans raisonnement explicite ne sera probablement jamais une solution générale.
C’est une approche saine. On arrête de vendre l’IA comme une entité omnisciente dans le jeu, et on commence à la traiter comme un système qui doit apprendre à se repérer comme nous : en regardant, en se trompant, et en s’améliorant. Il reste du chemin avant qu’un agent puisse traverser Elden Ring de façon fiable, mais au moins, aujourd’hui, on sait mesurer à quel point on en est.
Sources
- How Far Can We Go with Pixels Alone? A Pilot Study on Screen-Only Navigation in Commercial 3D ARPGs – arXiv : Article décrivant l’agent screen‑only, les protocoles expérimentaux sur Dark Souls, Elden Ring et Black Myth: Wukong, et les résultats détaillés.
Comment l'agent IA de l'étude "How Far Can We Go with Pixels Alone?" joue-t-il à Elden Ring sans avoir accès à la carte ?
L'agent utilise une méthode « screen-only » : il analyse uniquement les pixels de l'écran pour repérer des points de passage visuels (portes, couloirs), sans jamais lire les données internes du jeu ou la mini-carte.
L'expérience de l'étude "How Far Can We Go with Pixels Alone?" a-t-elle permis à l'IA de terminer les niveaux d'Elden Ring et Dark Souls ?
Partiellement. L'IA réussit souvent à franchir des segments courts ou à atteindre la moitié des objectifs dans Dark Souls, mais elle échoue à enchaîner des parcours complets sans erreur, particulièrement sur Elden Ring.
Qu'entendent les chercheurs par navigation « screen-only » appliquée aux jeux vidéo ?
C'est une approche où l'intelligence artificielle navigue dans un environnement 3D en se basant uniquement sur ce qu'elle voit à l'écran, comme un humain, sans utiliser de coordonnées précises ou de carte du monde.
Pourquoi les agents IA ont-ils du mal à ne pas se perdre sur la durée dans Elden Ring ?
Ils manquent de mémoire spatiale et de planification à long terme. Ils savent réagir à une porte visible, mais ne comprennent pas la structure globale du niveau, ce qui les pousse souvent à tourner en rond dans des impasses.





