Pourquoi vos agents IA perdent le fil sur la durée

Pourquoi vos agents IA perdent le fil sur la durée

Posez la question naïvement : pourquoi un agent qui résout un casse-tête complexe en une fois échoue-t-il à vous assister sur plusieurs jours ? La réponse tient dans une notion que peu de benchmarks mesurent : la persistance d’état. Un nouveau jeu d’évaluation, WorldLines, vient pointer exactement cet angle mort.

Le problème que personne ne mesurait

Jusqu’ici, l’évaluation de la mémoire des modèles s’est concentrée sur deux mondes étanches. D’un côté, les tests centrés sur le langage : on stocke un long texte, puis on interroge le modèle pour vérifier qu’il retrouve la bonne information (du retrieval, de la question-réponse). De l’autre, les bancs d’essai pour agents incarnés, c’est-à-dire des IA qui agissent dans un environnement physique ou simulé, mais sur des tâches courtes : ranger un objet, suivre une consigne immédiate.

Entre les deux, un trou. Aucun ne testait sérieusement ce qui se passe quand un agent doit tenir sur la durée dans un environnement qui change. C’est précisément là que WorldLines s’installe.

WorldLines, ou la maison comme terrain d’épreuve

Le banc d’essai, décrit dans une étude publiée sur arXiv, se présente comme un benchmark « project-driven » d’assistance domestique sur un horizon long. Concrètement, ses auteurs construisent des traces de vie d’une maison étendues dans le temps : des dialogues, des actions, des retours d’exécution, et surtout des changements d’état des objets et des appareils.

Un agent domestique utile doit retenir vos routines, l’état du monde autour de lui et l’historique de ses interactions. WorldLines transforme ces traces en échantillons reliés à des preuves (evidence-linked), pour deux exercices distincts : la mémoire en question-réponse (Memory QA) et la planification de tâches incarnées (Embodied Task Planning). On ne demande donc pas seulement « te souviens-tu ? », mais « sais-tu agir en fonction de ce dont tu te souviens ? ».

Là où tout casse

Le résultat des expériences ? Trois fragilités persistantes, et elles sont instructives.

  • L’observabilité partielle : l’agent ne voit jamais tout l’environnement à un instant donné, et doit raisonner sur ce qu’il ne perçoit plus.
  • Les états du monde écrasés : une information vraie hier (le lave-vaisselle était plein) devient fausse aujourd’hui, et le modèle conserve l’ancienne version.
  • La traduction de la mémoire en plan : se souvenir d’un fait est une chose, en faire une action correcte en est une autre.

Une analogie éclaire le mécanisme. Imaginez un assistant à qui vous laissez des consignes pendant une semaine, mais qui ne tient aucun cahier de bord cohérent : il se rappelle des bribes, confond ce qui est encore valable et ce qui est périmé, et finit par agir sur une photo du passé. Le problème n’est pas son intelligence ponctuelle, c’est sa tenue de l’état dans le temps.

ObsMem : tenir un journal du monde

Les auteurs ne se contentent pas de mesurer la casse, ils proposent une architecture de référence : ObsMem, pour observer-grounded memory. L’idée est de maintenir des mémoires conscientes de la visibilité (ce que l’agent a réellement pu voir) et des « pistes d’état » exprimées dans le langage natif des actions.

Autrement dit, plutôt que de stocker des phrases descriptives, ObsMem suit les changements d’état au fil des actions, pour des décisions qui tiennent compte de l’état courant. Sur le papier, l’approche offre une meilleure base que les mémoires textuelles classiques. Restons mesurés : c’est une architecture de référence proposée par l’équipe, pas une solution qui referme le sujet, et les défauts d’observabilité partielle demeurent.

Pourquoi ça compte, même hors de la cuisine

On pourrait croire l’exercice cantonné aux robots ménagers. Il dépasse largement ce cadre. La semaine dernière, l’équipe red team (qui traque les failles) d’Anthropic détaillait la phase 2 de son Projet Fetch : faire programmer un robochien par Claude. Selon Anthropic, Opus 4.7 s’est montré de lui-même environ vingt fois plus rapide que la meilleure équipe humaine de l’année précédente, alors assistée par Opus 4.1.

Le rapprochement est éclairant. Le raisonnement brut des modèles progresse à un rythme spectaculaire. Mais piloter un robochien sur la durée, comme assister un foyer pendant des semaines, ne se joue pas seulement sur la vitesse de résolution : ça se joue sur la capacité à garder le fil quand le monde bouge sous les pattes de l’agent. WorldLines met un chiffre et un protocole sur ce que beaucoup pressentaient.

La leçon vaut pour tout système d’agents censé travailler en continu : avant de muscler le raisonnement, regardez comment il gère la mémoire d’état, l’information périmée et le passage du souvenir à l’action. C’est sur ce terrain que se jouera la prochaine génération d’assistants vraiment autonomes, et c’est là qu’ils tombent encore.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *