Facture IA divisée par deux : le calcul de Coinbase

L’essentiel

Coinbase a divisé par deux sa dépense en IA tout en consommant plus de tokens que jamais, en routant ses requêtes vers des modèles chinois comme GLM-5.2 et Kimi 2.7.
Zhipu AI revendique avec GLM-5.2, un modèle à poids ouverts, un niveau comparable à Mythos d’Anthropic sur la détection de failles, là où l’écart général se resserre.
L’embargo américain à l’export sur Mythos et Fable 5 prive les labos américains d’une partie du marché mondial, que des acteurs asiatiques s’empressent d’occuper.

Un chiffre tombe et résume la pression qui monte sur les laboratoires d’IA américains : moitié moins. C’est ce qu’a annoncé Brian Armstrong, le PDG de Coinbase, à propos de la facture IA de son entreprise. La plateforme dépense aujourd’hui deux fois moins qu’avant pour ses modèles, alors même que sa consommation de tokens (les unités de texte facturées par les fournisseurs) n’a jamais été aussi élevée. Le levier principal a un nom et une origine : des modèles chinois comme GLM-5.2, signé Zhipu AI, et Kimi 2.7.

Un « deux fois moins » qui grimpe pendant que l’usage explose mérite qu’on l’ouvre. D’où vient-il, que mesure-t-il vraiment, et que vaut-il une fois replacé dans le contexte de la guerre des prix qui s’amorce ?

D’où vient le « moitié moins »

Le réflexe serait d’attribuer toute l’économie au prix au token des modèles chinois, nettement plus bas. Ce serait incomplet. Coinbase fait reposer son gain sur trois leviers empilés, et le premier est purement technique.

L’entreprise a mis en place un système de routage automatique qui choisit, pour chaque requête, le modèle le mieux adapté selon la tâche, le prix et le potentiel de mise en cache. Ce dernier point pèse lourd : en travaillant son caching, Coinbase a fait passer son taux de réutilisation des réponses de 5 à 60 %. Autrement dit, six requêtes sur dix puisent désormais dans un cache plutôt que de repayer un calcul complet.

Vient ensuite la discipline imposée aux développeurs : garder un contexte léger, repartir d’une session vierge à chaque nouvelle tâche. Cette hygiène, qu’on range sous le terme de context engineering, réduit mécaniquement le volume facturé. Le prix des modèles chinois n’arrive qu’en troisième position. Le « deux fois moins » est donc un produit composite : un tiers de tarif, deux tiers d’ingénierie.

Ce que le chiffre ne dit pas tout seul

Sorti de son contexte, le chiffre flatte. Remis dedans, il est plus impressionnant encore. Car la dépense a été divisée par deux pendant que l’usage grimpait, porté par des modèles de raisonnement agentiques qui brûlent des tokens par millions. Le coût par unité produite, lui, s’est effondré bien au-delà du facteur deux.

Deux nuances tempèrent l’enthousiasme. D’abord, Coinbase laisse ses développeurs choisir librement leur modèle ; 91 % d’entre eux n’atteignaient de toute façon jamais leurs anciens plafonds d’usage. La bascule vers le chinois n’est donc pas un couperet, mais une option par défaut sur un parc déjà sobre.

Ensuite, Armstrong assortit la liberté d’une règle : « Plus vous dépensez en IA, plus nous attendons d’impact. » La générosité en tokens n’est pas un blanc-seing. Voilà qui distingue Coinbase de la mode du tokenmaxxing, où l’on félicite les salariés qui consomment sans rendre de comptes.

@siliconcarnesf sur X

Un écart qui se referme là où ça compte

Le prix n’est pourtant que la partie visible. Ce qui pèse réellement, c’est ce que les modèles chinois savent désormais faire pour ce tarif. GLM-5.2 reste en retrait des modèles d’Anthropic et d’OpenAI sur les tâches générales. Mais certains chercheurs affirment qu’il rivalise avec Mythos sur des scénarios précis de détection de bugs et de cybersécurité.

La précision est tout sauf anodine. Mythos est justement le modèle que l’administration Trump a interdit à l’export, à cause de ses capacités à repérer des vulnérabilités, de même que sa version plus restreinte Fable 5. Le gouvernement américain considère ces modèles comme des menaces pour la sécurité nationale. Voir un modèle à poids ouverts, téléchargeable et exécutable par n’importe qui sur du matériel courant, s’en approcher sur ce terrain précis change la donne. La firme chinoise 360 a d’ailleurs dévoilé Tulongfeng, qu’elle présente comme capable de tenir tête à Mythos sur la cybersécurité.

L’écart de capacité ne se referme pas partout. Il se referme là où l’embargo prétendait justement bâtir une digue.

Quand l’embargo offre le marché

C’est le paradoxe que ces annonces mettent en pleine lumière. En coupant Anthropic de l’accès mondial à Mythos et Fable, l’embargo n’a pas ralenti la Chine sur le créneau sensible ; il a surtout libéré un espace commercial que d’autres occupent.

Au Japon, Sakana AI a lancé Fugu, présenté comme un modèle de coordination d’agents capable d’orchestrer l’accès à d’autres modèles via leurs API. Son cofondateur David Ha l’a posé sans détour sur X : « Les modèles d’orchestration sont la prochaine frontière, au-delà des modèles plus gros. » Et de prévenir : « L’accès aux meilleurs modèles peut disparaître du jour au lendemain. » Le site de Sakana vend d’ailleurs explicitement une « capacité de pointe sans le risque des contrôles à l’export ».

Le mouvement gagne aussi l’Ouest. La startup Lindy a basculé sur DeepSeek v4, son PDG évoquant une courbe de coûts qui s’est « écrasée au sol » et des millions économisés. Snowflake teste les modèles chinois comme alternatives meilleur marché. Une analyse de son directeur technique conclut que GLM-5.2 n’égale pas tout à fait Claude, mais reste compétitif et l’emporte nettement sur le rapport prix-performance selon les tâches.

La réponse des laboratoires américains se prépare sur le terrain tarifaire : OpenAI a positionné GPT-5.6-Sol au prix de la version précédente en promettant une meilleure efficacité au token, et propose des variantes allégées à bas coût. La guerre des prix qui s’ouvre est le premier effet visible de cette concurrence par le bas.

Mon avis

Je parie que l’embargo se retournera contre ses auteurs avant douze mois. En coupant Mythos du monde, les États-Unis n’ont pas privé la Chine de la capacité visée : ils ont transformé chaque entreprise qui cherche à payer moins en client potentiel des modèles chinois, et chaque allié inquiet pour son accès en partenaire de Pékin par défaut. Le levier qui compte n’est plus la puissance brute du meilleur modèle, c’est le coût d’un résultat acceptable, et c’est précisément là que l’écart fond. Un modèle à poids ouverts qui talonne Mythos sur la cybersécurité pour une fraction du prix, c’est exactement ce que l’embargo était censé empêcher, et ce qu’il a fini par encourager.

Sources

@brian_armstrong sur X

Facture IA divisée par deux : le calcul de Coinbase

D’où vient le « moitié moins »

Ce que le chiffre ne dit pas tout seul

Un écart qui se referme là où ça compte

Quand l’embargo offre le marché

Sources

Un autre article ?

Quand l’IA coûte plus que les salaires : Lindy lâche Claude

GLM-5.2 : un cinquième du prix, le double de tokens

Anthropic gèle sa réforme de facturation face à OpenAI

Laisser un commentaire Annuler la réponse