
Un document technique d’OpenAI, consacré à un obscur benchmark de génomique, vient de révéler ce que l’entreprise s’était bien gardée d’annoncer : sa génération GPT-5.6 aura une déclinaison Pro, et pas une, trois. Luna Pro, Terra Pro et Sol Pro figurent noir sur blanc dans un tableau de résultats que personne n’était censé décortiquer.
Fin juin, quand OpenAI a présenté GPT-5.6, l’offre Pro n’était pas au programme. Le plus intéressant tient dans une seule ligne de ce tableau : Sol Pro, la plus musclée des trois variantes, plafonne à 31,5 % de réussite sur ce test. Un score qui semble maigre au premier coup d’œil, jusqu’à ce qu’on comprenne ce qu’il mesure.
Réussir un tiers du temps, et c’est une performance
Ici, le « pass rate » n’est pas un pourcentage de bonnes réponses à un QCM : il mesure la part des tâches où le modèle mène une analyse complète en plusieurs étapes, sans erreur en chemin, jusqu’à la bonne conclusion. Sur une suite de 129 tâches, échouer à une seule étape intermédiaire disqualifie toute la chaîne.
Vu sous cet angle, 31,5 % change de sens. Sol Pro ne « rate » pas deux tâches sur trois : il boucle intégralement, sans faux pas, un raisonnement scientifique long dans un cas sur trois. À titre de comparaison, le Sol standard tombe à 28,7 %, et le meilleur modèle non-OpenAI du panel, Claude Opus 4.8, à 16,0 %. Soixante modèles ont été passés au crible ; Sol Pro les domine tous. Le chiffre paraît petit parce que l’épreuve est dure, pas parce que le modèle est faible.
Le bonus de puissance fond à mesure qu’on monte en gamme
La donnée la plus parlante n’est pas le sommet, c’est la pente. En comparant chaque modèle standard réglé au maximum à sa version Pro, on voit le gain de puissance s’éroder à mesure qu’on grimpe. Luna Pro, l’entrée de gamme, gagne sept points pleins sur sa version normale. Sol Pro, le haut du panier, en récupère moins de trois.
Autrement dit : le supplément de calcul rapporte gros sur les petits modèles, et de moins en moins sur les gros. Le cas de Terra le résume à lui seul. Sa variante Pro atteint 28,5 %, à deux dixièmes de point du Sol standard (28,7 %). Traduction concrète : un modèle pensé pour le volume, une fois dopé, égale presque le vaisseau amiral classique. La hiérarchie des prix et celle des performances ne coïncident plus vraiment.
Le coût de calcul, seul chiffre absent
Un chiffre pèse aussi par son absence. Pour les modèles standards, le papier publie la consommation moyenne de tokens comme approximation du coût de calcul : environ 33 200 tokens pour un Sol réglé au maximum. Pour les variantes Pro, cette colonne est vide.
Les auteurs invoquent l’absence de comptabilité comparable. L’explication la plus probable est ailleurs : ce sont précisément les chiffres qu’OpenAI n’a pas envie de partager. Car le coût de calcul, c’est le prix de revient. Le dévoiler pour les variantes Pro reviendrait à laisser deviner la marge sur ce qui s’annonce comme le segment le plus cher. On montre le gain de performance, on masque son addition énergétique.
Pro cesse d’être un modèle pour devenir une gamme
Depuis son lancement, ChatGPT Pro tenait sur une promesse simple : le meilleur modèle disponible, un cran au-dessus de tout le reste. Un objet, un prix, un statut. Le papier laisse entrevoir un tout autre modèle économique.
À la place d’un unique étage premium, Pro deviendrait sa propre gamme à trois niveaux, calquée sur la gamme standard : une version rapide, une version pour gros volumes, une version calibrée pour le raisonnement maximal. L’utilisateur ne paierait plus pour « le meilleur », mais choisirait un curseur : vitesse, débit ou puissance de raisonnement, selon la tâche. La puissance devient un produit qu’on vend au palier, comme des gigaoctets de stockage. Segmenter une gamme par usage n’a rien d’inédit : Anthropic le fait déjà avec Claude (Haiku, Sonnet, Opus) et Google avec Gemini (Flash, Pro). La bascule, c’est qu’OpenAI porte cette logique de paliers jusque dans son étage le plus cher, resté jusqu’ici un bloc unique.
Les développeurs qui bâtissent sur ces API sont les premiers concernés. Fini l’abonnement unique où l’on prenait « le haut de gamme » sans se poser de question : place à un arbitrage permanent entre coût et fiabilité, à trancher tâche par tâche. Les données du tableau donnent déjà une méthode : sur des chaînes de raisonnement longues, un Terra Pro à 28,5 % pourrait suffire là où l’on aurait eu le réflexe de prendre un Sol beaucoup plus cher.
Trois noms dans une case, pas encore une offre
Une réserve, et elle est de taille : ces trois variantes n’existent, pour l’instant, que dans une case de tableau. Rien ne garantit qu’elles arriveront sous cette forme dans ChatGPT, ni à quel tarif. Un nom dans un benchmark interne n’est pas une fiche produit.
Mais la fuite est cohérente avec une logique déjà lisible dans la génération GPT-5.6, elle-même éclatée en trois modèles à sa sortie. La segmentation ne s’arrête pas à l’offre grand public : elle remonte jusqu’au sommet. Une inconnue demeure, et elle décidera de tout : au moment de facturer trois niveaux de Pro, OpenAI rouvrira-t-il la colonne des tokens qu’il vient de laisser vide ?
