Agents IA : un benchmark mesure surtout le budget de tokens qu’on accorde

Agents IA : un benchmark mesure surtout le budget de tokens qu'on accorde

L’essentiel

  • L’AI Security Institute a testé des modèles de pointe sur sept benchmarks en faisant varier le budget de calcul alloué à chaque tâche.
  • En génie logiciel, le taux de réussite bondit d’environ 25 % en passant d’un à dix millions de tokens ; en cybersécurité, 8 % des tâches ne cèdent qu’au-delà de dix millions.
  • La durée qu’un humain met à résoudre une tâche prédit la consommation de l’agent selon une loi de puissance : une minute vaut des milliers de tokens, une semaine des milliards.

Un modèle de pointe passe un test, la presse relaie un nouveau record, on range l’affaire dans la case « progrès ». Le rapport publié par l’AI Security Institute (AISI), le laboratoire d’évaluation rattaché au gouvernement britannique, vient déranger ce réflexe. Sa démonstration tient en une phrase gênante : le score que vous lisez sur un benchmark n’est pas un plafond, c’est un plancher. Et ce qui sépare les deux dépend d’une variable qu’on regarde rarement, le nombre de tokens (les fragments de texte que le modèle lit et produit) qu’on autorise l’agent à brûler par tâche.

Autrement dit, quand on mesure un agent avec un budget fixe, on ne mesure pas ce qu’il sait faire. On mesure ce qu’il sait faire avec le portefeuille qu’on lui a serré.

Un score qui grimpe avec le carburant

Le point de départ des chercheurs est simple : la performance d’un agent n’est pas un chiffre, c’est une courbe. Elle monte avec le test-time compute, la puissance de calcul consommée pendant la résolution. Couper le budget alors que la courbe grimpe encore, c’est arrêter le chronomètre en plein sprint et noter le résultat comme s’il était final.

Les écarts mesurés sont massifs. Sur des tâches de génie logiciel (TerminalBench 2.0, SWE-Bench Pro), le taux de réussite progresse d’environ 25 % quand le budget passe d’un à dix millions de tokens. Sur les questions académiques et mathématiques de Humanity’s Last Exam, le gain avoisine 22 % jusqu’à cinq millions. En cybersécurité, environ 8 % des tâches ne sont résolues qu’au-delà de dix millions de tokens, certaines réclamant cinquante millions ; les modèles les plus récents décrochent des scores encore supérieurs quand on dépasse les cent millions.

Un échec dans ces conditions ne dit pas « l’agent n’y arrive pas ». Il dit « on ne lui a pas laissé le temps ».

Une tâche d’une semaine coûte des milliards de tokens

Le rapport pousse le raisonnement plus loin avec une régularité troublante. En croisant 211 tâches de génie logiciel issues de l’institut de recherche METR et 78 tâches cyber de l’AISI, les chercheurs observent une loi de puissance entre le temps qu’un expert humain met à accomplir une tâche et le nombre de tokens que l’agent doit dépenser pour la faire.

Une tâche d’une minute coûte des milliers de tokens. Une tâche d’une heure, des millions. Une tâche d’une semaine, des milliards. La relation est mécanique : plus le problème est long pour un humain, plus il est vorace pour la machine. L’AISI cite le défi cyber « The Last Ones », qui réclame environ vingt heures à un expert. Aucun modèle testé ne l’a résolu avec moins de trente millions de tokens.

Le corollaire est cinglant pour la façon dont on évalue ces systèmes. Un budget fixe coupe d’office les tâches les plus longues et les plus dures, exactement celles qui comptent. On croit cartographier les limites d’un agent ; on ne fait que cartographier les limites de la facture qu’on a décidé de payer.

Là où le calcul ne change rien

Reste que dépenser plus n’ouvre pas toutes les portes, et c’est peut-être la nuance la plus utile de l’étude. Sur HealthBench, un banc d’essai de tâches médicales, tous les modèles atteignent leur plateau à l’intérieur du budget standard. Rajouter du calcul ne bouge plus l’aiguille.

La ligne de partage, selon l’AISI, tient à la vérification. Le calcul supplémentaire paie surtout quand l’agent peut contrôler son propre travail : exécuter du code, lancer un test, vérifier qu’un exploit fonctionne. Là, chaque token investi finance une boucle d’essai-erreur qui converge. Quand le retour est absent ou différé, comme sur un diagnostic médical qu’on ne peut pas « compiler », l’agent tourne à vide et le budget ne sert plus à rien.

La leçon dépasse les benchmarks. Un agent déployé sur une tâche où il peut se relire, se tester, se corriger tirera profit de plus de calcul. Sur une tâche sans signal de vérité, lui donner davantage de tokens revient à payer plus cher un même verdict.

Quand la capacité devient une ligne de dépense

Dernier enseignement, et non le moindre pour qui déploie ces outils : les modèles récents gagnent sur deux tableaux à la fois. Ils réussissent plus souvent, et surtout ils convertissent mieux chaque token dépensé. La courbe de capacité se déplace vers le haut à chaque génération et bouge sur trois axes : la portée (des tâches plus dures deviennent solubles), la fiabilité (une même tâche réussit plus souvent), l’efficacité (une même tâche coûte moins de tokens).

Les chiffres donnent le vertige. L’horizon temporel d’un modèle de pointe, la durée de tâche humaine qu’il peut couvrir, grimpe d’environ quarante minutes pour un budget de 2,5 millions de tokens à près de quatre heures pour cinquante millions. Et si l’on retient à chaque budget le meilleur modèle disponible, cette frontière s’étire de deux à quatorze heures sur le même intervalle.

On avait pris l’habitude de demander « ce modèle est-il capable de faire X ? » comme si la réponse était binaire et gravée dans les poids. Elle est en réalité graduelle et négociable : capable de faire X pour tel prix. Allouer un budget de calcul cesse alors d’être un réglage technique. C’est un arbitrage économique qui fixe, tâche par tâche, ce que votre agent a le droit d’accomplir.

Choisir un modèle devient dès lors indissociable d’une autre décision : combien on accepte de dépenser par tâche, et sur quels problèmes ce budget se rentabilise. La frontière des capacités avance plus vite que les classements ne le laissaient croire, parce que les classements mesuraient des agents affamés.

Mon avis

Je crois que cette étude enterre discrètement l’idée de « niveau » d’un modèle. Dans dix-huit mois, comparer deux agents sans préciser le budget de tokens paraîtra aussi absurde que comparer deux voitures sans dire combien d’essence on met dans le réservoir. Ce qui fera bouger les lignes, désormais, c’est le prix du token et la vérification automatique, bien plus qu’un surcroît d’intelligence : c’est là que se jouera l’accès réel aux tâches longues, pas dans un score de plus sur un benchmark saturé.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *