
L’essentiel
- CEO-Bench fait piloter une startup fictive (NovaMind, un million de dollars au départ) pendant 500 jours simulés : sur quatorze modèles testés, seuls trois finissent au-dessus de leur capital de départ.
- DukaanBench confie une épicerie de quartier indienne à une IA pendant 30 jours, une seule action exécutable par jour, avec la confiance des clients qui se gagne ou se perd.
- Pour une équipe de Tencent Youtu Lab, le verrou n’est plus la qualité de la réponse mais la capacité à mener une tâche jusqu’au bout dans la durée.
Une IA répond à une question de droit, écrit du code et résume un rapport en quelques secondes. Confiez-lui une entreprise pendant un an et demi, et elle fait faillite. L’écart est troublant : si ces modèles sont si capables, pourquoi s’effondrent-ils dès qu’il faut tenir la barre dans le temps ?
Répondre vite, ne jamais terminer
Pour comprendre, il faut distinguer deux choses qu’on confond souvent : produire une bonne réponse et accomplir un travail. Une équipe de Tencent Youtu Lab vient de retracer l’évolution des grands modèles de langage en cinq étapes, du simple chatbot jusqu’au « collègue numérique » autonome. Et leur constat est net : la question centrale n’est plus de savoir comment un modèle formule une meilleure réponse, mais comment il transforme de façon fiable une intention en travail terminé.
Les premiers chatbots écrivaient d’une traite, mot après mot, en suivant la continuation la plus probable, sans jamais vérifier leurs étapes intermédiaires. Les modèles dits « raisonneurs », inaugurés par o1 d’OpenAI et DeepSeek-R1, ont changé la donne en investissant davantage de calcul au moment de répondre : ils explorent des pistes, contrôlent leurs étapes, se corrigent. Les chercheurs y voient le passage d’une pensée rapide et intuitive (le « System 1 » du psychologue Daniel Kahneman) à une pensée lente et délibérée (« System 2 »).
Sauf que mieux réfléchir avant de répondre ne règle pas le vrai problème. Les premiers agents savaient appeler des API (les interfaces par lesquelles deux logiciels se parlent), écrire du code, naviguer sur le web, mais restaient fragiles. Les auteurs identifient quatre points de blocage structurels : une perception du contexte par fragments, des appels d’outils qui ne laissaient aucun état durable, une casse au moindre imprévu, et surtout des tâches rarement menées à terme.
500 jours pour couler NovaMind
C’est exactement ce trou que mesure CEO-Bench. Le test simule une tâche à très long horizon : diriger une startup pendant 500 jours simulés. L’agent prend les commandes de NovaMind, une société de logiciels par abonnement, qui démarre avec zéro client et un million de dollars en banque. La règle est brutale : si le solde passe sous zéro ne serait-ce qu’une fois, l’entreprise est en faillite et la simulation s’arrête.
L’agent ne reçoit pas une liste de commandes toutes faites. Il pilote via une API Python de 34 outils branchée sur une base de 19 tables, écrit son propre code, interroge la base en SQL et bâtit ses propres workflows. Il doit arbitrer le prix, les paliers d’abonnement, les dépenses publicitaires, la qualité produit, la R&D, la capacité d’infrastructure, le support, et même négocier avec des clients grands comptes.
Ce qui rend l’exercice redoutable, c’est le temps et l’incertitude. Les revenus n’arrivent qu’aux dates de facturation, la R&D prend des jours voire des semaines, et une erreur se paie souvent plus tard en résiliations ou en réputation abîmée. Le coût, lui, tombe immédiatement. Une grande partie de l’état de l’entreprise reste cachée : l’agent ne voit ni la satisfaction client, ni le consentement à payer, et doit les reconstituer à partir de signaux bruités sur 26 segments de clientèle. Le résultat ? Sur quatorze modèles, la plupart finissent en faillite. Seuls trois terminent au-dessus de leur capital de départ. Ces trois rescapés sont d’ailleurs les modèles les plus en pointe du moment : Claude Opus 4.8 et Fable 5, tous deux d’Anthropic, face au GPT-5.5 d’OpenAI.
Les chercheurs nomment cette compétence l’« intelligence de pilotage », et l’illustrent par un cas célèbre : en 1997, Apple était à 90 jours de la faillite quand Steve Jobs a tracé une grille à deux entrées (grand public et pro, fixe et portable) pour ne construire que quatre produits. L’iMac, l’iPod et l’iPhone ont suivi. Cette capacité à orienter une organisation entière vers un but lointain n’a rien à voir avec le fait de bien exécuter une tâche isolée.
Une épicerie, 30 jours, et la confiance qui se gagne
DukaanBench attaque le même mur par le bas. Ici, un modèle gère une petite épicerie de quartier indienne (une « kirana ») pendant 30 jours simulés. Chaque matin, il reçoit l’état de la boutique : ventes, ruptures, stock, trésorerie, niveau de confiance, météo, crédit accordé aux habitués. Il doit renvoyer une seule action exécutable au format JSON avant l’ouverture. Le moteur simule ensuite les clients, les ruptures, les paiements, le gâchis de produits périssables et l’effet du marketing. Chaque journée laisse une trace qui se reporte sur la suivante.
La question posée est délibérément terre à terre : une IA peut-elle dégager du profit sans perdre la confiance de ses clients ? Les premières leçons sont parlantes. Un beau raisonnement ne suffit pas. La confiance change la partie : la perdre coûte des clients qui ne reviennent pas. Et le marketing ne vaut rien s’il pousse un produit déjà en rupture. Autant de contraintes qu’un agent qui se contente de bien « répondre » ignore superbement.
Le chaînon manquant : un espace de travail qui se souvient
La piste avancée par Tencent tient en deux mots : workspace et skill. Un espace de travail persistant où fichiers, terminaux, journaux, navigateurs, permissions et compétences survivent à toute la durée d’un projet, et non le temps d’un appel d’outil. Les chercheurs citent OpenHands et SWE-agent, qui logent l’agent dans un environnement de développement contrôlé, avec des boucles de vérification jusqu’à l’achèvement réellement constaté.
Le second pilier, ce sont les skills : des modules qui empaquettent un savoir-faire opérationnel réutilisable. Anthropic en a déjà formalisé le format avec ses Agent Skills, des dossiers contenant un fichier SKILL.md, des scripts et des ressources. Un skill n’est ni un prompt, ni un outil classique : il se place entre le raisonnement du modèle et l’exécution dans l’environnement. Les auteurs préviennent toutefois qu’une procédure réutilisable peut se périmer, trop coller à un cas particulier ou devenir un vecteur d’attaque.
Cette bascule force à revoir la manière d’entraîner et d’évaluer ces agents. Les chatbots apprenaient sur des paires question-réponse et étaient notés sur l’exactitude. Les systèmes ancrés dans un espace de travail apprennent sur des trajectoires état-action-observation, et le succès ne se mesure plus à une réponse plausible mais à la clôture de la tâche : le système a-t-il amené l’environnement cible dans l’état voulu, oui ou non ?
Si vous évaluez aujourd’hui un agent sur la qualité de ses réponses, vous mesurez la mauvaise chose. Ces trois bancs d’essai disent la même chose sous trois habits différents : tant qu’un agent répond au lieu de terminer, il échouera sur tout ce qui dure plus qu’une requête.
Mon avis
Je parie que les deux prochaines années d’agents IA se joueront non sur les modèles, mais sur leur environnement d’exécution. On a passé trois ans à grappiller des points de benchmark sur des réponses isolées, et CEO-Bench montre que ça ne transfère quasiment pas à la conduite d’une activité réelle. Les éditeurs qui gagneront ne seront pas ceux qui annoncent le meilleur score sur une copie, mais ceux qui rendront leurs agents capables de se souvenir, de vérifier et de finir. La persistance est le nouveau terrain de bataille, et il est encore largement vide.
