Au bureau, l'IA ne boucle vraiment que 3 % des tâches

D’un côté, des classements où les modèles d’IA frôlent le sans-faute. De l’autre, un projet de bureau étalé sur plusieurs semaines, fait de milliers de fichiers épars. Entre les deux, un gouffre que personne ne mettait en chiffres jusqu’ici.

Le benchmark AA-Briefcase, publié par Artificial Analysis, vient de le mesurer. Le meilleur modèle testé, Claude Fable 5 d’Anthropic, ne résout entièrement que 3 % des tâches. Pas un détail : un retournement.

Ce que promet un benchmark, ce qu’exige un projet

Un benchmark classique promet une chose nette : une question, une réponse, un score. La tâche est isolée, le contexte tient en quelques lignes, et la réussite se vérifie d’un coup d’œil. C’est précisément ce terrain-là que les modèles ont saturé, au point que les écarts entre eux se jouent désormais à la décimale.

Le travail de bureau réel exige l’inverse. AA-Briefcase reconstitue des projets de plusieurs semaines bâtis à partir de milliers de fichiers fragmentés : fils Slack, emails, transcriptions de réunions, gros exports de données. Aucune consigne ne dit où regarder. Il faut reconstituer le contexte avant même de produire quoi que ce soit.

D’un côté, donc, une épreuve calibrée pour être réussie. De l’autre, un désordre calibré pour ressembler à la réalité. Le premier flatte les modèles ; le second les démasque.

Une réussite affichée contre un échec mesuré

Le détail des scores fait apparaître la collision. Claude Fable 5 obtient le meilleur taux de validation par critère, mais ne coche l’intégralité des exigences que sur 3 % des tâches. Sur 31 des 91 tâches du test, aucun modèle ne franchit même la barre des 50 %.

Autrement dit, ce qui passe pour une domination dans les classements se traduit, face au réel, par une copie largement incomplète. Le modèle qui « gagne » est aussi celui qui échoue le plus souvent à boucler une mission de bout en bout.

L’écart ne tient pas à un défaut de puissance brute. Il mesure la distance entre répondre à une question et mener une tâche jusqu’à son terme.

Échouer fort, échouer en silence

Le plus instructif n’est pas le score, c’est la nature des fautes. Et là encore, deux régimes s’opposent. Les modèles faibles échouent bruyamment : ils manquent des fichiers pertinents, produisent des résultats inexploitables, butent sur l’exécution la plus basique. L’erreur saute aux yeux.

Les modèles forts, eux, échouent en silence. Ils cochent les exigences évidentes, livrent quelque chose de présentable, mais ratent les détails qu’on ne saisit qu’en recoupant plusieurs sources. L’erreur ne se voit pas. Elle se découvre plus tard, quand la décision est déjà prise.

Pour qui orchestre l’IA au quotidien, c’est le renseignement le plus précieux du test. Un échec visible se rattrape ; un échec discret se propage. Plus un modèle progresse, moins ses fautes sont repérables, et plus la relecture humaine devient la vraie ligne de défense.

La performance d’un côté, la facture de l’autre

Dernière mise en regard, et pas la moins parlante : le coût. Entre le moins cher et le plus cher des modèles testés, le rapport de prix dépasse 800. Comptez environ 0,04 dollar par tâche pour DeepSeek V4 Flash, plus de 31 dollars pour Claude Fable 5.

Le modèle le plus performant est donc aussi, et de très loin, le plus onéreux, pour un taux de réussite complète qui reste à 3 %. La question n’est plus seulement « quel modèle est le meilleur », mais « combien suis-je prêt à payer pour un travail qu’il faudra de toute façon vérifier ».

Le mur du réel, et après ?

Les IA agentiques sont censées mener seules des projets entiers. AA-Briefcase rappelle qu’entre cette promesse et le quotidien d’un bureau, il reste un mur : celui des tâches longues, ambiguës, faites de pièces dispersées qu’aucun prompt ne résume.

Ce n’est pas une condamnation, c’est un repère. Tant que les benchmarks classiques saturent, ils mesurent une compétence que le travail réel ne réclame plus. Un test qui restitue le désordre du bureau redonne, lui, une marge de progression lisible. Reste à savoir lequel des deux les laboratoires choisiront d’optimiser : le score qui brille, ou la tâche qui se termine.

Sources

Claude Fable 5

Au bureau, l’IA ne boucle vraiment que 3 % des tâches

Ce que promet un benchmark, ce qu’exige un projet

Une réussite affichée contre un échec mesuré

Échouer fort, échouer en silence

La performance d’un côté, la facture de l’autre

Le mur du réel, et après ?

Sources

Un autre article ?

Siri AI : pourquoi Apple ne court pas après ChatGPT

Codex apprend en regardant : OpenAI absorbe le RPA

Maladies rares : l’IA rouvre les dossiers classés

Laisser un commentaire Annuler la réponse