
On a longtemps jugé une IA à la qualité de ses réponses. Mais que se passe-t-il quand elle cesse d’attendre nos questions pour agir d’elle-même, en continu, dans son propre espace de travail ?
Un papier de recherche publié sur arXiv (sous la référence 2606.14502), « From Chatbot to Digital Colleague », met un mot sur une mutation que beaucoup pressentaient sans la nommer. Il décrit le passage du chatbot conversationnel au « collègue numérique » : un système doté de mémoire persistante, capable de raisonner, d’agir et de s’améliorer seul. La couverture habituelle retiendra l’image flatteuse du collègue infatigable. Elle passe à côté de l’essentiel.
Du chatbot qu’on interroge à l’agent qui travaille
La thèse des auteurs tient en une bascule sur deux axes. Premier axe, le cœur cognitif : on quitte la « pensée rapide » du modèle qui prédit le mot suivant pour des « Thinking LLMs » qui prennent le temps de raisonner, de réfléchir et de vérifier (Chain-of-Thought, supervision de processus, apprentissage par renforcement). Second axe, l’exécution des tâches : on quitte l’agent qui appelle un outil à la volée pour des systèmes à « Workspace + Skill », des postes de travail persistants équipés de procédures réutilisables, de boucles de vérification et de gouvernance. Loin d’être une vue de l’esprit, ce « skill » existe déjà comme produit : Anthropic l’a décliné pour Claude sous forme de modules de compétences réutilisables d’une tâche à l’autre.
La nuance est moins anecdotique qu’il n’y paraît. Un chatbot oublie tout entre deux échanges. Un collègue numérique conserve un état, capitalise sur ses tâches passées, rejoue des procédures éprouvées. Ce n’est pas une conversation plus longue, c’est un travail qui se poursuit hors de votre présence.
Le récit dominant célèbre la productivité, et oublie la facture
Le discours ambiant résume tout cela à un gain de productivité évident : l’IA écrit, produit, exécute, donc nous gagnons du temps. Sauf que les chiffres récents racontent une histoire plus retorse, et il faut la regarder en face.
Sur le terrain du développement, une instrumentation à grande échelle (22 000 développeurs, 4 000 équipes, données de mars 2026) montre que l’adoption massive de l’IA fait grimper le nombre de pull requests mergées et le débit par ingénieur. Le revers est brutal : le code churn (la part de code réécrit ou jeté peu après) bondit de 861 %. Le gain de productivité réel serait modeste, de l’ordre d’un dixième, pendant que le volume de code, lui, quadruple.
Autrement dit, l’IA ne produit pas d’abord de la valeur. Elle produit surtout du travail à relire pour un humain. Le développeur Addy Osmani le formule sans détour : écrire du code est devenu presque gratuit, le comprendre coûte toujours autant. La relecture est le nouveau goulot d’étranglement.
Le vrai enjeu n’est pas la réponse, c’est la gouvernance
C’est ici que le papier prend tout son sens, à condition de ne pas s’arrêter à sa promesse. Tant que l’IA répondait à la demande, le contrôle était implicite : on lisait la réponse, on la validait, on l’utilisait. La supervision était cousue dans le geste même de l’interroger.
Un collègue numérique qui agit en continu fait sauter cette couture. Il travaille quand vous ne regardez pas. Il enchaîne des actions sans que vous les ayez sollicitées une à une. La question n’est plus « la réponse est-elle bonne ? » mais « comment encadrer un agent qui décide et exécute sans qu’on le déclenche ? ». Ce déplacement est le cœur du sujet, et c’est précisément ce que la couverture enthousiaste escamote.
Les auteurs ne l’ignorent pas, et c’est ce qui rend leur cadre intéressant. Ils placent la gouvernance et les boucles de vérification au même niveau que la mémoire ou les compétences. Pour un praticien qui orchestre l’IA, cela se traduit par des questions très concrètes :
- Quelles actions un agent peut-il accomplir seul, et lesquelles exigent un feu vert humain ?
- Comment tracer ce qu’il a fait, quand et pourquoi : l’auditabilité comme prérequis, pas comme option ?
- Que vaut sa mémoire persistante si personne ne sait ce qu’elle a retenu de vos données ?
- Qui assume la responsabilité quand le collègue numérique se trompe en autonomie ?
De l’évaluation figée à l’écosystème auto-évolutif
Le papier pointe une dernière mutation, plus discrète et peut-être la plus structurante. On change aussi la matière d’entraînement : on passe des paires « instruction-réponse » à des trajectoires « état-action-observation », qui enregistrent non plus ce que le modèle dit, mais ce qu’il fait et ce qu’il en observe.
Et l’on change la manière de juger ces systèmes : exit les benchmarks statiques, place à des environnements isolés, auditables et auto-évolutifs. La promesse est séduisante. Le risque l’est tout autant : un système qui s’améliore seul dans son bac à sable est aussi un système qu’on évalue de moins en moins avec nos propres yeux.
Le glissement du chatbot au collègue numérique n’est donc pas qu’une montée en puissance. C’est un transfert d’initiative, de la personne vers la machine. Reste à savoir si nous bâtirons les garde-fous au rythme où ces agents gagnent en autonomie, ou si nous découvrirons la facture, comme pour le code, une fois le travail déjà fait.
