Vos prompts en images : l’astuce qui allège la facture IA

Vos prompts en images : l'astuce qui allège la facture IA

Une seule session avec un agent IA peut faire grimper la note à plusieurs dizaines de dollars. Pourquoi si cher, alors que le service rendu tient parfois en quelques secondes ? La réponse se loge dans un mot que tout praticien de l’IA connaît désormais par cœur : le token. Et c’est précisément sur ce point de facturation qu’une petite industrie d’outils vient de s’engouffrer, avec une promesse aussi simple qu’inattendue : payer beaucoup moins pour dire la même chose.

D’où vient l’addition

Un modèle de langage ne lit pas des mots, il lit des tokens : des fragments de texte facturés à l’unité, à l’entrée comme à la sortie. Un agent IA comme Claude Code renvoie, à chaque tour, un contexte volumineux : le prompt système, la documentation des outils, l’historique de la conversation. Ce bloc se répète encore et encore. Vous payez donc, à chaque échange, pour transporter la même charge utile.

L’essentiel de ce que votre agent envoie au modèle est du poids mort, statique, réexpédié en boucle. C’est ce constat, chiffres à l’appui, qui a donné naissance à une génération d’outils dont le seul but est de dégonfler ce flux avant qu’il n’atteigne le modèle.

Quand le texte se déguise en image

Le plus spectaculaire s’appelle pxpipe, un outil open source signé du développeur Steven Chong. Son idée repose sur une faille tarifaire limpide. Chez Anthropic, le texte est facturé à la longueur : plus il y a de caractères, plus la note grimpe. Une image, elle, coûte un nombre fixe de tokens, calculé sur ses seules dimensions en pixels, quel que soit le contenu affiché. La conséquence est vertigineuse : rendez du code ou du JSON sous forme d’image dense, et chaque token d’image absorbe bien plus de texte qu’un token classique.

pxpipe s’installe comme un proxy local. Il intercepte les requêtes vers l’agent et transforme les parties massives et immuables (prompt système, documentation des outils, vieux historique) en une image compacte. Les messages récents et les réponses du modèle, eux, passent normalement en texte. Le résultat est saisissant : quelque 48 000 caractères de prompt système et de documentation, qui coûteraient environ 25 000 tokens en texte, tiennent sur une seule page PNG densément remplie pour à peine 2 700 tokens.

Selon Steven Chong, l’économie moyenne s’établit entre 59 et 70 %. Dans une démonstration sur Fable 5, le coût d’une session serait tombé de 42,21 à 6,06 dollars. On comprend l’engouement.

Condense : raboter plutôt que camoufler

À côté de cette approche par le pixel, une autre école mise sur la compression pure. Condense vient d’ouvrir l’accès à son proxy de compaction, qui se glisse lui aussi entre l’agent IA et le modèle. Deux modèles maison s’y partagent le travail : Helene 1 élague les tokens superflus avant qu’ils n’atteignent le cache, tandis qu’Adeline 1 compacte les boucles d’agent déjà résolues jusqu’à environ 9 % de leur taille d’origine.

L’argument commercial est habile : aucune modification du prompt système n’est requise, donc les résultats produits par l’outil restent, en théorie, intacts. Pour convaincre, l’éditeur distribue 100 millions de tokens gratuits, en pariant que votre agent gaspille assez de contexte pour rendre la démonstration évidente.

Comprimer une image, ce n’est pas gratuit

Reste que planquer du texte dans un PNG a un prix, et il ne se compte pas qu’en dollars. La méthode de pxpipe est lossy, c’est-à-dire qu’une part d’information se perd au passage. Les chaînes exactes, comme un hash, peuvent ressortir déformées une fois relues depuis l’image. Le traitement est aussi plus lent, puisque le modèle doit faire passer chaque page rendue par son encodeur visuel au lieu de lire le texte directement.

La fiabilité varie fortement d’un modèle à l’autre. Fable 5 atteindrait 100 % de justesse sur des problèmes de maths tirés au sort, impossibles à mémoriser. En revanche, d’après Chong, Opus 4.7 et 4.8 se trompent sur environ 7 % des images rendues, et GPT 5.5 se débrouille moins bien avec un contexte en image. Sans surprise, ces deux modèles sont désactivés par défaut et ne s’activent qu’à la main.

L’idée n’est pas née de nulle part. DeepSeek avait déjà bâti un système d’OCR (reconnaissance optique de caractères) qui traite les documents comme des images et les comprime, selon son papier technique, jusqu’à un facteur dix, en conservant 97 % de l’information. La nouveauté, ici, c’est le détournement : ce qui était une technique de lecture devient une ruse de facturation.

Un jeu du chat et de la souris

Ce qui se joue là dépasse le bon plan pour développeur radin. Ces proxys exploitent une asymétrie tarifaire que les fournisseurs de modèles n’avaient pas anticipée : le texte facturé au caractère, l’image facturée au pixel. Tant que l’écart existe, il sera exploité. Et la parade est déjà nommée dans les rangs des observateurs : si l’astuce se répand, les éditeurs d’IA pourraient tout simplement relever le prix du traitement des images pour refermer la brèche.

Compresser tout son contexte par réflexe ne rime à rien. Tout se joue dans l’arbitrage : une part de précision et un peu de latence cédées contre une facture divisée par deux ou trois. Sur du code jetable, l’affaire est bonne ; sur une base de production où un seul caractère mal relu casse un build, elle mérite réflexion. Le token restera l’unité de compte de l’IA générative : autant apprendre, dès maintenant, à en peser chaque gramme.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *