Claude Code : la boîte noire que personne ne lit

Chaque session de Claude Code laisse une trace. Un fichier de plusieurs milliers de lignes, illisible, que personne n’ouvre jamais. C’est précisément là que tout se joue.

Un développeur a passé un week-end à construire Her (हेर, « détective » en marathi), un outil qui lit ce fichier à votre place et reconstitue, en clair, ce que l’agent a fabriqué pendant que vous regardiez ailleurs. Derrière le gadget, une question de fond : à mesure que l’IA programme, notre vrai travail n’est plus d’écrire, mais de vérifier.

La trace que personne ne lit

Le constat de départ est limpide. Chaque session d’un agent de programmation produit un fichier .jsonl qui consigne tout : chaque tour de conversation, chaque appel d’outil, chaque token consommé (l’unité de texte facturée par le modèle). En théorie, cette boîte noire enregistre tout, comme celle d’un avion. En pratique, elle reste noire au sens figuré : personne ne lit 4 000 lignes de JSON pour comprendre pourquoi l’agent a touché à la production, où est parti le budget de contexte, ou quel sous-agent a discrètement brûlé la moitié du run.

Her fait ce travail d’enquête. On dépose le fichier de session sur la page, et elle reconstruit le déroulé en anglais courant, signale les gestes à risque (déploiements, modifications de configuration ou de production, secrets manipulés) et relie chacun au tour exact où il s’est produit. Elle montre où sont partis les tokens, quels outils, sous-agents, skills et serveurs MCP (Model Context Protocol, le standard qui connecte un agent à des outils externes) ont été sollicités.

Et quand un schéma problématique connu et corrigeable se déclenche, elle suggère une meilleure pratique. Le mot compte : elle suggère, elle n’affirme jamais.

Le vrai métier n’est plus d’écrire, c’est de relire

Voilà ce que cet outil révèle, presque malgré lui. Si quelqu’un a éprouvé le besoin de bâtir un détective pour les sessions d’IA, c’est que la question « qu’a réellement fait l’agent ? » est devenue centrale. Quand on écrit son propre code, on sait ce qu’il contient. Quand on orchestre une IA qui le produit, on hérite d’un texte qu’on n’a pas tapé et dont on répond pourtant.

Le glissement est discret mais profond. L’agent agit en notre nom : il valide ses changements, il configure, il déploie. La signature reste la nôtre. Notre responsabilité aussi.

Ce n’est plus le clavier qui définit le métier, c’est le regard qu’on porte sur ce qui a été produit. Programmer devient un acte de relecture.

Pourquoi le déterministe change tout

Le choix d’architecture de Her mérite qu’on s’y arrête, car il dit quelque chose d’important sur la confiance qu’on peut accorder à un audit assisté par IA. Le moteur d’évaluation est purement déterministe. Le modèle de langage, lui, ne sert qu’à rédiger les phrases en anglais et à formuler des suggestions plus souples.

La conséquence est nette : les chiffres ne bougent pas quand le modèle change. Un constat n’est jamais « inventé » par l’IA, il est calculé. Le modèle habille, il ne tranche pas.

C’est une leçon de méthode pour quiconque construit des outils d’analyse à base de LLM (grand modèle de langage). Confier le jugement au modèle, c’est accepter qu’une mise à jour modifie silencieusement vos résultats. Confier au modèle la seule mise en mots, c’est garder la main sur la vérité des faits. La différence n’est pas cosmétique : elle décide si l’outil est auditable ou simplement bavard.

Tout reste sur la machine

L’autre parti pris est celui de la confidentialité, et il n’est pas anodin pour un fichier de session qui peut contenir des fragments sensibles. D’après l’annonce de l’auteur sur Hugging Face, aucune API (interface de programmation) d’IA tierce n’est jamais appelée. Le modèle utilisé, Nemotron-Mini-4B-Instruct, tourne directement sur le GPU (processeur graphique) du Space Hugging Face, via la technologie ZeroGPU. La session est envoyée uniquement vers un espace privé, propre à votre run et supprimé automatiquement. Rien n’en sort. Le contraste avec l’observabilité des agents telle qu’elle se pratique aujourd’hui est net : des plateformes comme LangSmith ou Langfuse reposent avant tout sur un tableau de bord centralisé, vers lequel chaque session est envoyée pour y être tracée. Her prend le chemin inverse.

Quelques détails trahissent l’attention portée à l’usage réel :

Her n’énumère pas seulement les outils en ligne de commande utilisés : elle les identifie, grâce à une base des principaux outils de Homebrew, npm et PyPI livrée avec le Space, ce qui permet de les nommer hors ligne.
Quand des outils de déploiement, des clients de base de données ou des serveurs de développement sont réellement exécutés, elle le signale, car ces gestes méritent un second regard.
Un copilote intégré, « Ask Her », répond à vos questions à partir de la trace, cite les tours concernés et ouvre l’appel d’outil exact.
Un seul fichier donne une vue de session ; plusieurs fichiers construisent une vue projet, pour traquer une même question à travers de nombreuses sessions.

Auditer l’agent, ou lui faire aveuglément confiance ?

Restons lucides sur les limites. Her est née en un week-end, à partir de la demande d’un ami, et porte les traces de ce bricolage heureux : une vue d’opérateur transformée en rapport exécutif parce qu’un second ami la voulait plus simple. C’est un prototype élégant, pas encore une norme industrielle. Et un détective ne remplace pas la vigilance de celui qui l’emploie : il la rend possible.

Mais l’objet pointe une bascule qu’aucun praticien sérieux ne pourra ignorer longtemps. Plus l’IA produit vite, plus l’écart se creuse entre ce qu’elle fait et ce que nous comprenons de ce qu’elle fait. Des outils comme celui-ci comblent cet écart, ou prétendent le faire.

Reste à voir si nous saurons en faire un réflexe. Car le confort de déléguer l’écriture s’accompagne d’une tentation : déléguer aussi la relecture. Le jour où plus personne n’ouvre la boîte noire, ce n’est plus un agent qu’on orchestre, c’est un agent qu’on subit.

Qu'est-ce que vous cherchez ?

Claude Code : la boîte noire que personne ne lit

La trace que personne ne lit

Le vrai métier n’est plus d’écrire, c’est de relire

Pourquoi le déterministe change tout

Tout reste sur la machine

Auditer l’agent, ou lui faire aveuglément confiance ?

Un autre article ?

Quand l’IA passe du décor à la scène

Claude 3.5 Sonnet : La Nouvelle Référence en IA Générative

V2A : La Technologie de Google DeepMind qui Génère l’Audio à Partir d’une Vidéo

Laisser un commentaire Annuler la réponse