OpenAI, Google, Anthropic : la vitesse avant le QI

OpenAI, Google, Anthropic : la vitesse avant le QI

Mai 2026 : Anthropic sort Claude Opus 4.8, son modèle le plus puissant, à 5 dollars le million de tokens en entrée et 25 en sortie. Soit, au centime près, le tarif de GPT-5.5 chez OpenAI. Il y a dix-huit mois, le haut de gamme d’un éditeur coûtait souvent plusieurs fois celui du voisin. Cet écart a disparu.

Quand les prix s’alignent et que les scores aux benchmarks se tiennent à quelques points, ce n’est pas un détail comptable. C’est le signe que le terrain de jeu vient de se déplacer.

Deux promesses, une seule encore vendable

Pendant trois ans, la promesse des éditeurs tenait en un mot : intelligence. Le meilleur raisonnement, le meilleur code, le meilleur score à tel test agentique. C’était l’argument, et il suffisait à vendre un abonnement plus cher que celui d’en face.

Cette promesse s’est banalisée. Sur le raisonnement, la programmation ou l’agentique, Opus 4.8, GPT-5.5 et Gemini se tiennent dans un mouchoir. « On commence à tendre vers un gap d’intelligence commun », reconnaît Hamidou Dia, VP Applied AI Engineering chez Google Cloud. Traduction : l’intelligence brute ne sépare plus personne. Elle est devenue le ticket d’entrée, pas l’avantage.

Reste l’autre promesse, longtemps reléguée au second plan : la vitesse. Là où l’intelligence promettait la justesse, la vitesse promet le débit. Et c’est elle, désormais, qui fait la différence visible.

Pourquoi la latence, et pourquoi maintenant

La bascule n’est pas un caprice marketing, elle est imposée par l’usage. Tant qu’on discutait avec un modèle, une réponse en quelques secondes passait inaperçue. Avec les agents, on ne discute plus : on fait travailler le modèle dans le monde réel. Il planifie, exécute, vérifie, corrige, relance.

Chaque étape déclenche un appel au modèle, et chaque appel attend que le précédent ait fini. Les latences ne s’additionnent pas, elles se multiplient le long de la chaîne. Un raisonnement brillant mais lent, répété trente fois dans une boucle agentique, devient un raisonnement inutilisable. La qualité d’un agent ne dépend plus seulement de ce qu’il sait, mais de la cadence à laquelle il enchaîne.

D’où l’enchaînement d’annonces depuis le début de l’année. Dès janvier, OpenAI signe avec Cerebras pour ajouter 750 MW de calcul à « ultra-faible latence ». En février, Anthropic lance son fast mode : la même intelligence d’Opus, mais 2,5 fois plus de tokens par seconde, moyennant un surcoût. En mars, Codex dégaine son mode /fast, où GPT-5.4 tourne 1,5 fois plus vite à raisonnement identique. En mai, à sa conférence I/O, Google dévoile Gemini 3.5 Flash, présenté comme « quatre fois plus rapide » que les modèles de pointe concurrents tout en battant son propre Gemini 3.1 Pro sur l’agentique.

Notez la formule récurrente : « même intelligence, plus vite ». Personne ne promet plus d’être plus malin. Tout le monde promet d’être plus rapide.

Ce que l’aveu révèle vraiment

La liste des annonces frappe moins que la franchise des équipes qui les portent. « On est focalisés sur la vitesse depuis un moment », assume Thibault Sottiaux, responsable Core Product & Platform chez OpenAI, qui travaille sur Codex. L’éditeur va jusqu’à reconnaître un point de départ peu flatteur : « Il y a six mois, tout le monde disait que Codex était lent, inutilisable. »

Un éditeur qui admet que son produit était inutilisable pour cause de lenteur, puis en fait un chantier prioritaire, dit quelque chose d’important sur l’état du marché. Quand on a une marge d’intelligence à prendre, on l’exhibe. Quand on se rabat sur la latence, c’est qu’on a cessé d’espérer creuser l’écart par le QI. La course à la vitesse est, en creux, l’aveu d’un plafond de capacité perçu.

Chez Google, même priorité, jusque dans le matériel : la latence est devenue un « critère sur lequel les équipes sont hyper focalisées », au point de découper l’infrastructure de calcul en conséquence. La bataille redescend du modèle vers la couche d’exécution, là où elle est moins photogénique mais bien plus décisive.

Ce qu’il faut en faire concrètement

Le déplacement rebat la grille de décision. Choisir un modèle sur son seul score de benchmark revient à arbitrer sur le critère qui s’est justement aplati. Le différenciateur utile est ailleurs : tokens par seconde réels, stabilité de la latence sous charge, coût du mode rapide, comportement dans une boucle longue.

Deux pièges méritent l’attention. D’abord, la vitesse se paie : fast mode et calcul à faible latence arrivent souvent avec un surcoût, et l’arbitrage débit/budget devient un poste à part entière. Ensuite, « même intelligence, plus vite » est une promesse à vérifier soi-même : sur une tâche agentique réelle, un modèle accéléré peut perdre en fiabilité ce qu’il gagne en cadence. Le bon test n’est pas le benchmark de l’éditeur, c’est votre propre pipeline chronométré de bout en bout.

L’intelligence promettait de mieux répondre ; la vitesse promet d’en faire plus. Tant que les modèles se ressemblaient par le haut, le premier critère suffisait. Maintenant qu’ils convergent, c’est la seconde dimension qui tranchera, et avec elle, sans doute, la prochaine génération d’agents que vous laisserez réellement travailler à votre place.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *