Agents IA : trois tests révèlent le vrai angle mort

On sait fabriquer des IA qui agissent. On ne sait toujours pas fabriquer des IA qui tiennent.

Le 8 juin, trois travaux universitaires sont apparus presque simultanément. Trois équipes différentes, trois objets d’étude qui semblent sans rapport — la mémoire longue, la panne d’outil, la médiation d’un conflit. Et pourtant, le même verdict en filigrane.

L’autonomie ne se joue pas dans la démo

Une démonstration d’agent dure trois minutes : on lui confie une tâche propre, des outils qui répondent, un contexte court. Il s’en sort. C’est exactement ce que mesurent la plupart des classements actuels — ce que les chercheurs appellent les happy paths (les parcours idéaux, sans accroc).

Le problème, c’est que le travail réel ne ressemble jamais à ça. Il s’étire dans le temps, accumule des souvenirs qui se contredisent, bute sur des outils qui tombent, exige de composer avec des humains qui changent d’avis. Ces trois benchmarks ont une chose en commun : ils débranchent le décor de la démo. Et le décor enlevé, l’agent vacille.

Le vrai test de l’autonomie n’est pas « sait-il faire ? ». C’est « sait-il continuer quand ça dérape ? ».

Une mémoire qui se contredit elle-même

Premier angle mort : la mémoire longue. Un assistant persistant accumule, au fil des semaines, des centaines de souvenirs sur vous. Le piège n’est pas de les retrouver un par un — c’est de gérer leurs relations. Deux souvenirs peuvent se compléter, diverger selon le contexte, ou carrément se contredire.

Le benchmark SubtleMemory s’attaque précisément à cette « discrimination mémorielle fine ». Il construit 1 522 cas d’évaluation greffés sur dix longues histoires d’interaction, à partir de plus de 1 000 jeux de souvenirs aux relations contrôlées. Verdict : les systèmes testés — modules natifs ou greffés sur des agents — restent faibles dès qu’il faut démêler des souvenirs nuancés ou contradictoires.

Pour un praticien, l’implication est directe. Un agent qui vous « connaît » depuis trois mois ne raisonne pas sur une vérité stable. Il raisonne sur un sédiment de notes qui s’empilent, et rien ne garantit qu’il saura distinguer la préférence d’hier de celle d’aujourd’hui. La mémoire, ici, n’est pas un coffre : c’est un palimpseste.

Quand l’outil tombe en panne, l’agent s’entête

Deuxième angle mort : la panne. Le benchmark ToolMaze introduit volontairement des défaillances dans les outils que l’agent appelle, en séparant deux registres — les pannes explicites (une erreur visible) et les pannes implicites (un résultat corrompu mais d’apparence normale).

Le résultat ? Les implicites font le plus mal. Quand l’outil renvoie une réponse fausse mais plausible, le taux de récupération s’effondre d’environ 37 %. La cause tient en un mot : la sur-confiance. L’agent fait confiance à la sortie corrompue, ne la remet pas en question, et s’enferme dans une boucle d’essais-erreurs stérile sur les tâches complexes.

Le constat le plus dérangeant est ailleurs. La tolérance aux pannes progresse 3,66 fois plus lentement que la simple exécution de tâche à mesure que les modèles grossissent. Autrement dit : agrandir le modèle ou peaufiner le prompt (l’instruction) ne règle pas le problème. La replanification dynamique — savoir changer de plan quand le plan échoue — est un goulet d’étranglement à part entière.

Une panne visible, l’agent la gère à peu près.
Une donnée fausse qui a l’air vraie, il la gobe.
Et plus la tâche s’allonge, plus il s’égare dans des tentatives qui ne mènent nulle part.

Négocier, ce n’est pas répondre

Troisième angle mort, le plus humain : la médiation. Le benchmark SoCRATES évalue des modèles en posture de médiateur proactif dans des conflits réels, reconstruits à travers huit domaines et cinq axes d’adaptation socio-cognitive — posture stratégique, composition des parties, longueur de l’historique, réactivité émotionnelle, identité culturelle.

La médiation n’est pas une question avec une réponse. C’est une trajectoire en temps réel, façonnée par des émotions et des intentions qui bougent à chaque tour. Et c’est là que les modèles calent : même le meilleur médiateur ne comble qu’environ un tiers de l’écart de consensus initial. Deux tiers du chemin vers l’accord restent à faire.

Détail rassurant sur la méthode : l’évaluateur automatique atteint 0,82 d’alignement avec des experts humains, plus du double d’une approche naïve tour par tour. Le thermomètre est crédible. C’est bien la température qui inquiète. Et la performance varie fortement selon l’axe socio-cognitif : le progrès se nichera dans l’adaptation au contexte, pas dans la puissance brute.

Alors, sur quoi parier ?

Trois équipes, trois protocoles, une même ligne de fracture. Les agents savent enchaîner des actions dans un monde docile. Ils trébuchent dès qu’il faut se souvenir avec discernement, douter d’un outil, ou tenir une relation qui dure.

Ce qui se dessine, c’est un déplacement du champ de bataille. Pendant des mois, la course portait sur la capacité brute : raisonner, programmer, appeler des outils — et les grands laboratoires ont tous décliné cette logique en « modes agent », du computer use de Claude (Anthropic) au Codex d’OpenAI en passant par le Gemini de Google, taillés pour les tâches courtes et balisées des démonstrations. Ces benchmarks suggèrent que la prochaine frontière est ailleurs — dans la robustesse, le doute méthodique, l’adaptation. Des qualités qu’aucune démo bien préparée ne révèle, et qu’aucune montée en taille ne semble offrir gratuitement.

Pour qui orchestre l’IA au quotidien, la leçon est sobre : un agent impressionnant en vitrine n’est pas un agent fiable en production. Reste à voir si les laboratoires choisiront de muscler ce qui se voit dans une démo, ou ce qui tient sur la durée.

Qu'est-ce que vous cherchez ?

Agents IA : trois tests révèlent le vrai angle mort

L’autonomie ne se joue pas dans la démo

Une mémoire qui se contredit elle-même

Quand l’outil tombe en panne, l’agent s’entête

Négocier, ce n’est pas répondre

Alors, sur quoi parier ?

Sources

Un autre article ?

Google ERA : le vrai métier du chercheur bascule

Google recompose vos photos : la photo n’est plus une preuve

Her : un détective pour ce que votre IA programme à votre place

Laisser un commentaire Annuler la réponse