Payer les développeurs au token : le pire réflexe de l'ère IA

Un patron de la tech dit tout haut ce que beaucoup pensent tout bas : classer ses ingénieurs selon le nombre de tokens consommés, c’est absurde. On a salué le bon sens. On a raté l’essentiel.

Ce que tout le monde a retenu

Scott Wu, cofondateur de Cognition (l’entreprise derrière Devin, l’agent de programmation IA, valorisée 26 milliards de dollars), a déclaré sur le podcast Founders que ranger les ingénieurs selon leur consommation de tokens n’était pas la bonne méthode. Andrew Feldman, PDG de Cerebras, a enfoncé le clou lors d’une conférence Bloomberg : distribuer des tokens illimités aux salariés serait « absurde dès le départ », comme acheter une Ferrari pour aller faire ses courses.

La leçon qu’on en a tirée tient en une phrase : l’IA coûte cher, il faut la rationner. Costco plutôt que Ferrari. Optimiser la facture d’inférence, basculer sur des modèles open source moins gourmands, surveiller le débit de tokens comme on surveille une facture cloud.

Sauf que réduire ce débat à une question de coût, c’est rester à la surface. Le problème n’est pas le prix du token, mais le fait d’en avoir fait, ne serait-ce qu’un instant, une unité de mérite.

Un token mesure l’activité, pas la valeur

Rappel utile : un token, c’est l’unité de texte qu’un modèle lit ou génère, l’équivalent approximatif d’un fragment de mot. Compter les tokens d’un ingénieur, c’est mesurer combien il a fait parler la machine. Pas ce qu’il en a sorti.

C’est le kilométrage confondu avec la destination. Un développeur qui résout un bug d’une ligne après une nuit de réflexion consomme dix fois moins de tokens que celui qui laisse un agent brasser des milliers de prompts pour réécrire un fichier qui marchait déjà. Au tableau de classement, le second gagne. Dans le produit, c’est le premier qui a créé de la valeur.

Wu lui-même reste à mi-chemin. « C’est directionnellement correct, mais je pense qu’il y a des endroits où les gens vont trop loin. » Il valide le principe, demande juste de la modération. C’est précisément le piège : tant que le token reste la boussole, même tempéré, on continue de récompenser la dépense plutôt que le résultat.

La mesure qui se retourne contre vous

Jacob Lauritzen, directeur technique de Legora (une startup d’IA juridique), décrit le mécanisme sans détour : dès qu’on récompense l’usage de l’IA, les employés se mettent à consommer des tokens pour soigner leur image au moment des évaluations. Ils brûlent de l’inférence pour la galerie. « Une manière vraiment stupide de faire quoi que ce soit », tranche-t-il.

@KimNoel sur X

Les économistes ont un nom pour cela : la loi de Goodhart. Quand une mesure devient un objectif, elle cesse d’être une bonne mesure. Le token-cible engendre le token-théâtre. On n’incite plus à mieux travailler, on incite à mieux paraître occupé, et la machine devient le complice idéal de cette mise en scène : elle ne se fatigue pas, ne proteste pas, génère du volume à la demande.

Le risque dépasse le gaspillage budgétaire pointé par Feldman. Une organisation qui mesure ses gens au token apprend à ses meilleurs éléments que l’agitation paie. C’est le contraire exact de ce que l’IA était censée apporter : du levier, pas du remplissage.

Et quand l’agent passe au tableau de bord ?

Voilà où l’affaire devient très concrète. Devin, Claude Code, Codex, Cursor : les agents consomment désormais des tokens en autonomie, sans main humaine sur chaque appel. La tentation de les piloter au volume sera encore plus forte, parce que le chiffre est là, propre, automatique, prêt à être tracé sur une courbe.

Or un agent optimisé pour le volume de tokens fera exactement ce qu’on récompense : raisonner plus longtemps que nécessaire, ré-explorer des pistes closes, multiplier les itérations verbeuses. On obtiendrait des agents bavards et coûteux, félicités pour leur prolixité. La métrique qui abîme déjà l’évaluation des humains abîmerait l’évaluation des machines, en pire, parce que la machine n’a aucune raison de s’autolimiter.

La sortie est connue, et Wu la nomme : juger sur la production réelle. Nombre de tickets résolus, rapidité de livraison, coût total ramené au résultat obtenu. Des indicateurs de sortie, pas d’entrée. Ce qui est produit, pas ce qui est consommé.

La facture n’est pas un bulletin de notes

Le token mérite d’être suivi : c’est une ligne comptable, un signal d’efficacité, parfois une alerte. Il ne mérite jamais de devenir un critère de mérite, pour un humain comme pour un agent. Confondre les deux, c’est installer dans l’ère agentique le plus mauvais réflexe possible, celui qui récompense le bruit.

Le prochain tableau de bord interne dira peut-être combien la machine a parlé. Il faudra surtout lui demander ce qui, au bout du compte, est réellement sorti de la conversation.

Payer les développeurs au token : le pire réflexe de l’ère IA

Ce que tout le monde a retenu

Un token mesure l’activité, pas la valeur

La mesure qui se retourne contre vous

Et quand l’agent passe au tableau de bord ?

La facture n’est pas un bulletin de notes

Un autre article ?

Codex : 99,8 % des tokens d’OpenAI, que vaut ce chiffre ?

MirrorCode : 19 jours pour qu’une IA reconstruise un logiciel

9,3 % de PR mergées : l’open source noyé par les agents IA

Laisser un commentaire Annuler la réponse