Agents IA jouer à Elden Ring

Des chercheurs font jouer des agents IA à Elden Ring

Des chercheurs ont récemment fait quelque chose qui semble sorti d’un scénario de science‑fiction : laisser des agents IA jouer à des jeux 3D complexes comme Dark Souls, Elden Ring ou encore Black Myth: Wukong. La différence avec les bots classiques ? Ces agents ne voient que l’écran, comme un joueur humain. Pas de carte, pas de coordonnées, pas de triche moteur. Juste des pixels, des décisions, et pas mal de_limites_.

Un agent qui ne regarde que l’écran

L’expérience vient d’une étude intitulée « How Far Can We Go with Pixels Alone? ». L’idée est simple : prendre un agent, l’empêcher d’accéder aux données internes du jeu (collision, positions, mini‑carte) et le forcer à naviguer uniquement à partir de l’image affichée à l’écran. C’est ce qu’ils appellent la navigation « screen‑only ».

Concrètement, l’agent capture les frames du jeu, repère des zones intéressantes (portes, couloirs, rampes) et en déduit une direction à suivre. Le but n’est pas de battre le jeu, mais de comprendre à quel point un système purement visuel peut se débrouiller dans des niveaux réels, denses et visuellement riches.

Comment l’agent trouve son chemin

L’agent repose sur un modèle visuel en deux étapes, déjà développé par les mêmes auteurs.

D’abord, un détecteur repère des points de transition spatiale (STP) dans chaque image : une porte entrouverte, le début d’un escalier, une arcade, tout ce qui ressemble à un passage possible. Ensuite, un deuxième module sélectionne le MSTP (Main Spatial Transition Point) — la sortie la plus prometteuse pour avancer vers l’objectif.

L’agent ne connaît pas la carte. Il se contente de suivre, image après image, ce point de passage principal, en convertissant cette décision en actions simples : tourner la caméra, avancer, ajuster sa trajectoire. C’est de la navigation à vue, guidée par des affordances visuelles — ces indices dans l’image qui suggèrent une action possible.

Dark Souls, Elden Ring et Black Myth: Wukong sur le banc de test

Pour vraiment stresser leur système, les chercheurs ne se sont pas contentés de petits labyrinthes de laboratoire. Ils ont pris des jeux commerciaux exigeants : Dark Souls I, Dark Souls III, Elden Ring et Black Myth: Wukong. Dans chaque jeu, ils ont défini des routes précises, allant d’un point de départ (typiquement un feu de camp ou un équivalent) vers une zone importante (porte de boss, sortie de niveau), découpées en six « milestones » visuels.

Les deux Dark Souls servent de jeux « core », car le modèle visuel avait déjà été entraîné dessus. Elden Ring et Black Myth: Wukong sont utilisés comme jeux de transfert : l’agent les découvre vraiment, sans entraînement spécifique sur ces titres. Tous les ennemis sont désactivés sur ces routes, pour se concentrer uniquement sur la navigation.

Des résultats prometteurs… mais loin d’un joueur humain

Alors, l’agent y arrive ? Sur certains segments, plutôt oui. Sur Dark Souls III, par exemple, la version la plus avancée de l’agent atteint environ la moitié des jalons sans intervention, avec quelques parcours complets sur une route donnée. Sur Black Myth: Wukong, les résultats sont même solides en termes de segments réussis.

Sur Elden Ring, en revanche, c’est plus compliqué. Aucune des variantes de l’agent ne parvient à enchaîner les six milestones de la route testée sans dépasser le temps imparti. Les taux de succès par segment restent modestes, avec beaucoup de timeouts et d’hésitations. Globalement, l’agent arrive souvent à avancer d’un point A à un point B sur une courte distance, mais il se perd quand il faut maintenir une stratégie sur plusieurs étapes.

Pourquoi ça bloque sur la durée ?

Le problème principal n’est pas de voir une porte, mais de comprendre où elle mène. L’agent n’a pas de carte mentale, pas de modèle 3D global du niveau. Il réagit à ce qu’il voit dans l’image instantanée, sans véritable planification à long terme. Résultat : il prend souvent des chemins qui semblent logiques localement, mais qui s’avèrent être des impasses ou des boucles.

De plus, le modèle visuel lui‑même a des biais et des zones d’aveugle. Quand il se trompe, l’agent peut rester coincé un moment à tourner en rond, d’où ces temps de segment très variables et ces échecs répétés sur certaines transitions.

Ce que cela change vraiment

Cette étude ne va pas transformer Elden Ring en jeu complètement jouable par une IA demain. Mais elle pose deux choses importantes.

D’abord, elle fournit un protocole sérieux pour évaluer la navigation purement visuelle dans des vrais jeux commerciaux, avec des métriques claires (succès par segment, temps, etc.). Ensuite, elle montre clairement que voir ne suffit pas : pour naviguer vraiment dans des environnements 3D complexes, il faudra combiner perception visuelle, mémoire et raisonnement spatial.

Pour les développeurs, ce type d’agent pourrait devenir un outil de test automatisé pour vérifier la lisibilité visuelle d’un niveau — en gros, vérifier qu’un joueur (ou un bot) peut comprendre où aller simplement en regardant. Pour la recherche, c’est un excellent point de départ pour construire des agents plus robustes, capables de se construire une carte mentale au lieu de seulement réagir aux pixels.

Mon avis

Ce qui est intéressant ici, c’est justement le côté « pas magique » des résultats. L’agent avance, mais bute vite sur les limites de la vision seule. Aucun sensationnalisme : les chercheurs le disent eux‑mêmes, un modèle purement visuel sans raisonnement explicite ne sera probablement jamais une solution générale.

C’est une approche saine. On arrête de vendre l’IA comme une entité omnisciente dans le jeu, et on commence à la traiter comme un système qui doit apprendre à se repérer comme nous : en regardant, en se trompant, et en s’améliorant. Il reste du chemin avant qu’un agent puisse traverser Elden Ring de façon fiable, mais au moins, aujourd’hui, on sait mesurer à quel point on en est.

Sources


Comment l'agent IA de l'étude "How Far Can We Go with Pixels Alone?" joue-t-il à Elden Ring sans avoir accès à la carte ?

L'agent utilise une méthode « screen-only » : il analyse uniquement les pixels de l'écran pour repérer des points de passage visuels (portes, couloirs), sans jamais lire les données internes du jeu ou la mini-carte.

L'expérience de l'étude "How Far Can We Go with Pixels Alone?" a-t-elle permis à l'IA de terminer les niveaux d'Elden Ring et Dark Souls ?

Partiellement. L'IA réussit souvent à franchir des segments courts ou à atteindre la moitié des objectifs dans Dark Souls, mais elle échoue à enchaîner des parcours complets sans erreur, particulièrement sur Elden Ring.

Qu'entendent les chercheurs par navigation « screen-only » appliquée aux jeux vidéo ?

C'est une approche où l'intelligence artificielle navigue dans un environnement 3D en se basant uniquement sur ce qu'elle voit à l'écran, comme un humain, sans utiliser de coordonnées précises ou de carte du monde.

Pourquoi les agents IA ont-ils du mal à ne pas se perdre sur la durée dans Elden Ring ?

Ils manquent de mémoire spatiale et de planification à long terme. Ils savent réagir à une porte visible, mais ne comprennent pas la structure globale du niveau, ce qui les pousse souvent à tourner en rond dans des impasses.

Sur le même sujet

dark souls elden ring
Design des boss Dark Souls

Les boss de Dark Souls : entre art et gameplay

Les boss de Dark Souls et d'Elden Ring sont bien plus que de simples obstacles. Ils représentent l'apogée du design de jeu chez FromSoftware, mêlant direction artistique, technicité et narration environnementale. Ces affrontements légendaires ont redéfini ce qu'un boss peut être dans un jeu vidéo. Plongée dans l'ingénierie derrière ces adversaires mémorables.

Minecraft Altera
Projet SID : 1000 IA recréent une société dans Minecraft

Projet SID : 1000 IA recréent une société dans Minecraft

La startup Altera a mené une expérience unique en plaçant 1000 agents IA autonomes dans un serveur Minecraft. Bien plus qu'un simple divertissement, le Projet SID est une étude scientifique sur l'émergence de comportements sociaux complexes. Cet article se propose de dépasser les anecdotes pour analyser en détail le cadre technique, les objectifs et les réalisations mesurables de cette simulation.

Neuralink Cerveau-IA

Neuralink et les Interfaces Cerveau-IA : Piloter un Ordinateur par la Pensée

Imaginez pouvoir contrôler votre ordinateur, jouer à des jeux vidéo ou même déplacer un bras robotisé simplement par la pensée. Ce n'est plus de la science-fiction, mais une réalité en cours de développement grâce aux interfaces cerveau-IA. Au cœur de cette révolution se trouve Neuralink, l'entreprise fondée par Elon Musk qui pousse les limites de l'interaction entre le cerveau humain et les machines. Explorons ensemble cette technologie fascinante qui promet de transformer radicalement notre rapport au numérique.

Web3 NFT
La révolution de la propriété avec les NFT intelligents

La Révolution des iNFT : de simple utilisateur à propriétaire dans le Web3

Et si les objets numériques que vous utilisez chaque jour ne vous appartenaient pas seulement le temps d'une session, mais vous étaient véritablement et durablement propres ? C'est la promesse des NFT intelligents (iNFT). Au-delà d'une simple avancée technique, ils représentent un changement de paradigme fondamental : la transformation d'expériences éphémères en actifs numériques pérennes et possédés. Bienvenue dans une nouvelle ère où vous n'êtes plus un simple utilisateur, mais un véritable propriétaire.

Minecraft Dreamer
Dreamer IA DeepMind Minecraft

Dreamer : l'IA autonome de DeepMind dans Minecraft

Imaginez une intelligence artificielle capable d'apprendre à jouer à Minecraft sans aucune aide humaine. C'est l'exploit réalisé par Dreamer, un algorithme développé par DeepMind. Pour la première fois, une IA a réussi à collecter un diamant dans le jeu populaire sans démonstration, ni tutoriel, ni plan d'apprentissage structuré. Une avancée qui ouvre la voie vers des systèmes d'IA plus autonomes et généralistes.

agent ordinateur
ChatGPT contrôle PC

Votre PC contrôlé par ChatGPT, bientôt possible ?

Le nouveau mode Agent de ChatGPT révolutionne l’assistance numérique. Jusqu’à présent, l’IA ne se contentait que de naviguer dans un navigateur virtuel. Mais OpenAI travaille sur une version capable d’interagir directement avec votre ordinateur personnel, dans un environnement sécurisé et sous votre contrôle. Voici ce que cela signifie.