
Comment passe-t-on d’un assistant qui répond à un agent qui agit ? C’est la question que tout le monde se pose mais que personne ne formule vraiment. Sur la scène de VivaTech, jeudi 18 juin, deux ingénieurs d’OpenAI y ont répondu sans détour.
Il y a quelques jours, nous écrivions ici que l’essentiel du salon parisien se logeait moins dans son slogan « Impact, Not Illusion » que dans un déplacement discret du discours, du modèle vers l’usage. La conférence de Thibault Sottiaux et Peter Steinberger est venue le confirmer, et surtout l’expliquer. Reste à comprendre, concrètement, ce qui a basculé.
Le modèle, le harness, et ce qui les sépare
Thibault Sottiaux dirige les équipes Core Product & Platform d’OpenAI, après avoir contribué à AlphaGo chez Google DeepMind puis conçu Codex. Sa lecture est nette : si l’on parle aujourd’hui d’IA agentique plutôt que générative, c’est pour deux raisons distinctes.
La première tient aux modèles eux-mêmes. Ils gèrent désormais des fenêtres de contexte plus larges, savent appeler des outils et maintiennent une exécution cohérente sur des durées qui se comptent en minutes, et non plus en secondes. « On l’a vu avec GPT-5, et GPT-5.2 a marqué un nouveau saut », rappelle-t-il.
La seconde raison est moins visible, et c’est elle qui change tout. Sottiaux l’appelle le « harness » : la couche d’exécution qui fait réellement tourner l’agent, gère les appels d’outils, rattrape les erreurs. « Un très bon modèle, un bon harness, on combine les deux, et soudain le modèle peut effectuer des actions dans son environnement. »
L’image est utile : le modèle est le moteur, le harness est la transmission. Un moteur surpuissant posé sur l’établi ne fait rien avancer. Tant qu’on raisonnait modèle, on regardait le moteur. L’agentique, c’est tout le reste de la voiture.
Une heure pour la première version, des mois pour le reste
Peter Steinberger incarne ce basculement mieux qu’un schéma. Cet ingénieur autrichien s’est lancé dans l’ingénierie d’agents au printemps 2025. Il voulait solliciter son agent à distance, depuis son téléphone. Une première tentative l’a déçu ; il l’a abandonnée, persuadé que les grands laboratoires combleraient le manque. Personne ne l’a fait. Alors il s’y est remis fin 2025.
La première version fonctionnelle d’OpenClaw, son agent autonome open source, il l’a construite en une heure, par-dessus Codex. La formule a marqué les esprits, mais il prend soin de la nuancer : « une heure n’est jamais vraiment une heure. » Le simple ajout du support des images en a demandé plusieurs. Le squelette est rapide ; le rendre utilisable, beaucoup moins.
Pourquoi si vite, alors ? Parce que les modèles ont atteint un excellent niveau en programmation, et que programmer relève d’abord de la résolution de problèmes, une compétence qui se transpose. On confie une tâche à l’agent, il la résout. Du jour au lendemain, Steinberger disposait de cette capacité directement sur WhatsApp.
Pourquoi une boucle « hello world » devient infiniment complexe
Le cœur d’un agent, dit-il, est d’une simplicité presque vexante : « la boucle agentique est en réalité très simple, presque le hello world d’un agent. » Le modèle reçoit un objectif, choisit une action, observe le résultat, recommence. Tout tient là.
Et c’est là le paradoxe : écrire cette boucle est trivial ; la rendre fiable est un autre métier. Le computer use (la capacité de l’agent à manipuler lui-même l’ordinateur) l’illustre bien : on lui demande « prends le relais et termine ça », il déplace le curseur et clique à votre place. Très utile sur le papier, très difficile à rendre robuste. Entre la démo qui fonctionne une fois et l’outil qui ne casse pas, il y a précisément le travail de harness.
C’est aussi pourquoi la construction d’OpenClaw en public a compté. Steinberger développait sous les yeux d’une communauté, sur Discord. « C’est toute la beauté de l’open source : on échange des idées et on les réintègre dans notre core agent », note Sottiaux. La couche d’orchestration s’affine moins en laboratoire qu’au contact des usages réels.
Quand l’IA parle à l’IA
Le palier suivant est déjà là. Au départ, l’utilisateur dialoguait avec un agent et travaillait à ses côtés. Désormais, explique Steinberger, il s’adresse à un modèle qui délègue à son tour à d’autres agents, dans une logique d’orchestration en cascade. « Nous avons atteint un nouveau palier où l’IA parle à l’IA. »
Détail qui dit beaucoup, et qui a surpris les deux intervenants : la plus forte croissance ne vient pas des développeurs, mais du travail généraliste du quotidien. Chez OpenAI, Codex a servi à la directrice financière Sarah Friar pour suivre une levée de fonds, « juste pour déplacer des fonds et garder une trace ». L’outil né pour écrire du code est devenu un exécutant polyvalent.
Ce que ça change pour qui orchestre l’IA
La leçon est concrète pour quiconque pilote ces outils au quotidien. La qualité d’un agent ne se joue plus au choix du modèle, ou de moins en moins. Elle se joue dans la couche qui l’entoure : la gestion des outils, des erreurs, des relances, la façon dont une tâche est découpée et déléguée. Le modèle s’est banalisé ; le harness, lui, fait la différence. OpenAI n’est d’ailleurs pas seul à le penser : chez Anthropic, les équipes derrière Claude Code défendent le même déplacement, au point d’avoir baptisé la discipline le « harness engineering ».
Autrement dit, savoir prompter ne suffit plus. Le savoir-faire se déplace vers l’architecture d’exécution, là où l’on décide ce que l’agent a le droit de faire, comment il s’y reprend quand il échoue, qui supervise quoi. L’histoire d’OpenClaw rappelle qu’un soir d’expérimentation peut suffire à poser la boucle. Tout le reste, c’est-à-dire l’essentiel, se construit ensuite.
