GLM-5.2 : un cinquième du prix, le double de tokens

Un cinquième du prix au token. C’est le chiffre qui circule depuis que Snowflake a opposé GLM-5.2, le modèle de l’éditeur chinois Zhipu, à Claude Opus 4.7 d’Anthropic sur un banc d’essai de programmation. À 1,40 dollar le million de tokens en entrée contre 5 dollars pour Opus, l’écart de tarif est brutal. Mais un prix unitaire n’est pas une facture. Et quand on remet GLM-5.2 dans le contexte d’une tâche réellement menée à bout, ce cinquième fond à vue d’œil.

66 % contre 67 % : le match quasi nul

Le test de Snowflake portait sur 103 tâches, chacune jouée trois fois, où le modèle devait produire du code fonctionnant à la fois sur DuckDB et sur Snowflake. Sur trois tentatives autorisées, les deux modèles finissent au coude-à-coude : 66 % des tâches résolues pour GLM-5.2, 67 % pour Opus 4.7. À ce niveau d’agrégation, l’écart tient de la marge de bruit.

La photo change dès qu’on regarde la première tentative. Opus réussit du premier coup dans 53,7 % des cas, GLM seulement 47,6 %. Six points qui disent l’essentiel : la sortie de GLM est moins constante, elle a davantage besoin de ses trois essais pour rattraper son retard. Le modèle chinois rejoint Opus à l’arrivée, pas au départ.

Deux fois plus de tokens : d’où vient l’addition

Voilà le chiffre que le tarif au token escamote. Sur l’ensemble du benchmark, GLM-5.2 a brûlé 860 millions de tokens, contre 439 millions pour Opus 4.7. Près du double. En moyenne, GLM a enchaîné 99 itérations par tâche, là où Opus se contentait de 80.

Faites le calcul de coin de table. Un prix unitaire cinq fois plus bas, mais une consommation grosso modo doublée : l’avantage réel sur la facture par tâche se rapproche d’un rapport de deux à un, pas de cinq à un. GLM reste moins cher, c’est incontestable. Mais l’ordre de grandeur que claironne la grille tarifaire n’est pas celui que vous paierez en production.

Un cas isolé illustre la mécanique mieux qu’une moyenne. Sur une tâche, GLM a déclenché 411 appels d’outils en 24 minutes pour compter des lignes, mesurer des distributions, traquer les valeurs nulles et les types de colonnes, vérifier puis revérifier. Résultat, trois échecs sur trois. Opus avait réglé la même tâche en 49 appels et 9 minutes. La frénésie de contrôles ne produit pas du code plus juste, elle gonfle l’addition.

@matthewmillerai sur X

Ce que le banc d’essai mesure vraiment

Le directeur général de Snowflake, Sridhar Ramaswamy, ne cache pas son verdict : Opus 4.7 reste le meilleur modèle. Mais GLM tient son rang, et sur un point précis il fait mieux que tenir. Sa force est de valider du code de façon fiable sur les deux plateformes simultanément. Selon Ramaswamy, certaines tâches n’ont été résolues que par GLM, justement grâce à cette vérification croisée.

Ses faiblesses sont le revers exact de cette qualité. Le modèle abandonne trop tôt sur certaines tâches, et s’acharne sur les mauvais indicateurs sur d’autres. L’idée reçue d’un GLM qui produirait un code plus propre n’a pas tenu, tranche Ramaswamy : multiplier les contrôles ne rend pas le résultat plus correct. Le benchmark mesure donc moins une supériorité brute qu’un profil : un modèle endurant et minutieux, mais dépensier et inégal.

Reste une limite de lecture à garder en tête. Ce test couvre un seul domaine, la génération de SQL portable entre deux moteurs de données. C’est un terrain où la vérification automatique est facile et où l’acharnement de GLM peut payer. Rien ne dit que le même profil se reproduit sur du code applicatif, du raisonnement long ou de l’agent multi-étapes.

La pression chinoise sur la bulle occidentale

C’est dans la colonne des prix que ces résultats pèsent le plus. GLM-5.2 s’affiche à 1,40 dollar en entrée et 4,40 dollars en sortie sur la grille officielle de Zhipu, et certains fournisseurs tiers descendent encore en dessous. En face, Opus 4.7 tourne à 5 et 25 dollars, GPT-5.5 à 5 et 30. Même corrigé de la surconsommation de tokens, l’écart reste assez large pour inquiéter. Et le défi dépasse ce seul test SQL : sur des bancs d’essai de programmation plus larges comme SWE-bench, GLM-5.2 rivalise déjà avec GPT-5.5 pour une fraction du prix.

Et il frappe au point sensible : la programmation, précisément le cas d’usage phare sur lequel Anthropic comme OpenAI ont misé leur croissance. Si la pression tarifaire venant de Chine ralentit cette croissance de revenus, c’est tout l’édifice qui vacille. Les valorisations des laboratoires occidentaux reposent sur un postulat simple, des revenus qui grimpent vite, lui-même adossé à des dizaines de milliards engagés dans les centres de données et les commandes de puces.

Le chiffre à retenir n’est donc pas « cinq fois moins cher ». C’est l’écart qui survit une fois l’addition réelle posée : assez réduit pour que GLM-5.2 ne soit pas un foudre de guerre, assez réel pour qu’un acheteur de tokens à grande échelle commence à comparer les factures plutôt que les grilles. La prochaine génération de modèles occidentaux se jugera moins à son score qu’à son coût par tâche aboutie.

Sources

@RamaswmySridhar sur X

GLM-5.2 : un cinquième du prix, le double de tokens

66 % contre 67 % : le match quasi nul

Deux fois plus de tokens : d’où vient l’addition

Ce que le banc d’essai mesure vraiment

La pression chinoise sur la bulle occidentale

Sources

Un autre article ?

Anthropic gèle sa réforme de facturation face à OpenAI

Anthropic mesure Claude Code en dollars de freelance : +27 % en six mois

Microsoft passe l’IA à l’usage : le forfait est mort

Laisser un commentaire Annuler la réponse