Agents IA : 0,66 et 11 %, le réel rattrape les scores

Agents IA : 0,66 et 11 %, le réel rattrape les scores

Deux papiers publiés le même jour, deux manières de prendre les agents IA au mot. EnterpriseClawBench les juge sur de vraies sessions de travail. PlanBench-XL les lâche dans un écosystème de plus de 1 600 outils. Le verdict tient en deux chiffres : 0,663 et 11,36 %.

L’évaluation des agents quittait depuis quelques mois les énigmes synthétiques pour se rapprocher du terrain. Ces deux travaux poussent le curseur d’un cran : ils ne demandent plus si un modèle sait raisonner, mais s’il tient debout là où le travail réel se déroule.

Deux promesses, deux terrains

EnterpriseClawBench, présenté par l’équipe FrontisAI, part d’une archive de sessions d’agents réellement menées en entreprise. Les auteurs en tirent 852 tâches reproductibles, chacune accompagnée de ses fichiers, de règles strictes et de grilles d’évaluation sémantiques. Le terrain, ici, c’est le poste de travail : lire des documents hétérogènes, appeler des outils, produire un livrable qui tienne la route.

PlanBench-XL, lui, choisit la profondeur plutôt que l’authenticité. Son décor est un univers de vente au détail simulé, mais avec 1 665 outils et 327 tâches qui exigent de découvrir les bons instruments, d’inférer des sous-objectifs implicites et de s’adapter sur la durée. Sa trouvaille : un mécanisme de blocage qui fait disparaître, échouer ou parasiter certaines fonctions en cours de route.

L’un mesure la fidélité au travail tel qu’il se fait. L’autre mesure la résistance au travail tel qu’il dérape.

Ce qui les sépare vraiment

La tentation serait de les ranger côte à côte, comme deux variantes d’un même exercice. Or tout les oppose sur la méthode.

EnterpriseClawBench fait un pari sur la matière : des sessions propriétaires, donc impossibles à diffuser. Les auteurs assument de ne pas publier les données et de ne livrer que le protocole de construction et d’évaluation. La valeur est dans la méthode, pas dans un jeu de tests qu’on téléchargerait. C’est rare, et c’est honnête sur une limite : on ne pourra pas rejouer leurs tâches exactes.

PlanBench-XL fait le pari inverse : un environnement entièrement contrôlé, donc reproductible et perturbable à volonté. On peut couper un outil, en casser un autre, observer l’agent chercher un chemin de secours. Là où le premier capture la richesse du réel au prix de l’opacité, le second sacrifie l’authenticité pour gagner en rigueur expérimentale.

Fidélité contre contrôle. Le choix n’est pas anodin : il décide de ce qu’on apprend.

Les scores disent la même chose

Et ce qu’on apprend converge. Sur EnterpriseClawBench, la meilleure configuration testée, Codex adossé à GPT-5.5, plafonne à 0,663. Le travail d’entreprise complet, du fichier brut au livrable visuel, reste largement hors de portée.

Sur PlanBench-XL, le chiffre est plus brutal encore. GPT-5.4 atteint 51,90 % de réussite quand tous les outils répondent. Activez le blocage le plus sévère, et la performance s’effondre à 11,36 %. Dix modèles de premier plan ont été passés au crible : la planification dans un grand parc d’outils imparfaits reste un mur.

Le détail qui compte n’est pas le score absolu, c’est où il craque. Les agents trébuchent surtout quand l’échec ne s’accompagne d’aucun signal d’erreur explicite, ou quand se relever exige un détour plus long que la voie initiale. Autrement dit, ils gèrent l’obstacle annoncé, pas la panne silencieuse.

Déployer un agent : la robustesse avant le score

La leçon transversale dépasse les deux papiers : un score unique ne veut plus rien dire. EnterpriseClawBench insiste pour qu’on rapporte la combinaison harnais-modèle, le coût, le temps d’exécution, la qualité visuelle du livrable, le transfert de compétences. Un agent n’est pas un modèle ; c’est un modèle, plus son outillage, plus la manière dont on l’orchestre.

Concrètement, qui déploie un agent sur des tâches longues devrait cesser de regarder le taux de succès en conditions idéales. La vraie question est la robustesse quand un outil tombe sans prévenir. Prévoyez des chemins alternatifs, des signaux d’échec lisibles, des points de contrôle. Ce que PlanBench-XL appelle « blocage », votre production l’appellera mardi prochain.

Côté évaluation interne, le geste utile consiste à se construire son propre banc d’essai à partir de sessions réelles, à la manière d’EnterpriseClawBench, plutôt que de se fier à un classement public générique. Vos tâches, vos outils, vos pannes : c’est là que se cache l’écart entre la démonstration et l’usage.

L’évaluation grandit, l’écart se voit

Ces deux benchmarks marquent moins une rupture qu’une maturation. Le constat n’est pas isolé : τ-bench, le banc d’essai de Sierra, montrait déjà que les meilleurs agents restaient sous les 50 % sur des tâches réalistes et tombaient à environ 25 % de fiabilité quand on répétait huit fois la même tâche. Mesurer les agents là où ils travaillent vraiment, c’est accepter de voir des chiffres modestes après des mois de promesses. C’est précisément ce qui rend ces travaux utiles : ils ne flattent pas la technologie, ils la situent.

Reste une zone d’ombre que ni l’un ni l’autre ne tranche : un agent qui s’effondre à 11 % sous perturbation peut-il vraiment être confié à une chaîne de décision sans humain dans la boucle ? La réponse, pour l’instant, tient dans l’écart entre les deux scores.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *