Codex : 99,8 % des tokens d’OpenAI, que vaut ce chiffre ?

Codex : 99,8 % des tokens d'OpenAI, que vaut ce chiffre ?

99,8 %. C’est la part des tokens de sortie produits chaque semaine au sein d’OpenAI qui transitent désormais par Codex, son agent de programmation maison. Le chiffre vient d’une publication de l’entreprise datée du 25 juin 2026, How agents are transforming work. Il est spectaculaire. Il mérite surtout qu’on l’ouvre pour voir ce qu’il y a dedans.

Un token, c’est l’unité de base que manipule un modèle de langage : un fragment de mot, généré ou consommé. Compter les tokens, c’est mesurer un volume de production de texte, pas une valeur. Avant de conclure quoi que ce soit, il faut savoir d’où sort ce 99,8 % et ce qu’il pèse réellement.

D’où vient ce 99,8 %

Le chiffre n’est pas une moyenne par personne. C’est une part du volume total. Et là se cache la première subtilité : les utilisateurs les plus intensifs consomment bien plus que les autres. Quand une poignée de collaborateurs lance des tâches lourdes sur Codex à longueur de journée, leur production de tokens écrase mécaniquement le bavardage conversationnel du reste de l’organisation.

Le 99,8 % décrit donc une concentration, pas une généralisation. Pour mesurer le comportement individuel, OpenAI fournit un autre indicateur, plus honnête : le collaborateur moyen générait moins de 10 % de ses tokens via Codex en août 2025, il en produit plus de 85 % aujourd’hui. Voilà le basculement réel, ramené à l’échelle d’une personne. Dix mois pour inverser un rapport de un à neuf.

Dernière précaution, et elle est de taille : ces données reposent sur un échantillon aléatoire de 0,1 % des utilisateurs. OpenAI le dit lui-même. Un dixième de pour cent, c’est suffisant pour dégager une tendance lourde, trop mince pour qu’on prenne chaque décimale au pied de la lettre.

Ce que le chiffre mesure, et ce qu’il ne dit pas

Un volume de tokens n’est pas un volume de travail abouti. Un agent qui explore dix pistes, en abandonne neuf et n’en retient qu’une produit beaucoup de tokens pour un seul résultat utile. La métrique gonfle naturellement avec l’autonomie : plus on délègue une tâche longue, plus la machine écrit, raisonne, se reprend. Le pourcentage grimpe sans qu’on sache, à sa seule lecture, combien de cette production a réellement servi.

Reste un signal que ce biais n’efface pas : la longueur des tâches confiées. En mai 2026, 80,6 % des utilisateurs individuels échantillonnés ont lancé au moins une requête Codex estimée à plus de trente minutes de travail humain ; 25,6 % au moins une dépassant huit heures. On ne demande pas huit heures de travail à un outil d’autocomplétion. On le confie à un agent qu’on laisse tourner. Ce déplacement-là, de la complétion ponctuelle à la tâche longue déléguée, est plus parlant que le 99,8 % lui-même.

Détail qui en dit long sur l’ampleur : chez OpenAI, l’avocat ou le recruteur moyen génère lui aussi plus de 85 % de ses tokens via Codex, pas via ChatGPT. L’agent de programmation a débordé du périmètre des ingénieurs pour devenir le canal de production par défaut, métiers techniques et non techniques confondus.

Pourquoi les « petites » mises à jour deviennent critiques

C’est ici que les chiffres rejoignent une actualité en apparence anecdotique. Cette semaine, OpenAI a déployé une série de correctifs de confort sur Codex : défilement plus fluide dans les longs fils, position qui reste fixe pendant qu’on navigue, historique local plus profond chargé sans tout aspirer d’un coup, archives plus faciles à parcourir. Et surtout : copier depuis Codex, coller dans Slack, en conservant le Markdown, les puces, le gras, le code et les liens, sans que les gros blocs collés fassent planter l’interface.

Sur un assistant qu’on sollicite trois fois par jour, ces ajustements sont cosmétiques. Sur un outil par lequel transite la quasi-totalité de la production d’une entreprise, ils changent de nature. Une interface qui plante sur un collage volumineux, un fil de discussion qu’on perd en changeant d’onglet, une mise en forme qui saute au transfert : sur une chaîne de production, ce ne sont plus des irritants, ce sont des points de rupture. Fiabiliser le défilement d’un fil de mille messages, c’est fiabiliser le poste de travail de quelqu’un qui y passe sa journée.

Le pourcentage et les correctifs racontent donc la même histoire vue de deux hauteurs. Le 99,8 % dit qu’un agent est devenu infrastructure. Les mises à jour de la semaine disent ce qu’implique d’opérer une infrastructure : la stabilité prime sur la nouveauté. Et OpenAI n’est pas seul à mesurer ce basculement : Anthropic rapporte que les utilisateurs de Claude Code y passent désormais une vingtaine d’heures par semaine, preuve que le glissement vers l’agent dépasse les murs d’une seule entreprise.

Ce que ce chiffre vaut pour vos équipes

Un point de vigilance, d’abord : ces données décrivent OpenAI mesurant ses propres salariés sur son propre outil. L’entreprise la mieux outillée du monde pour faire travailler un agent IA n’est pas un échantillon représentatif de votre organisation. Le 99,8 % est un plafond observé dans des conditions idéales, pas une cible.

Une piste d’action, ensuite. Si vous évaluez un agent IA, le bon indicateur n’est ni le score sur un benchmark ni le volume de tokens produit. C’est la durée des tâches que vos équipes acceptent de lui déléguer sans repasser derrière. Le jour où une personne lui confie une tâche de plusieurs heures et part déjeuner, le basculement décrit par OpenAI a commencé chez vous aussi. Et ce jour-là, la fluidité du défilement comptera autant que la finesse du modèle.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *