GPT-5.6 Sol bat Claude Mythos, et devient ingérable

GPT-5.6 Sol bat Claude Mythos, et devient ingérable

L’essentiel

  • OpenAI lance GPT-5.6 en preview restreinte, avec trois variantes : Sol (haut de gamme), Terra (usage courant) et Luna (entrée de gamme).
  • Sur Terminal-Bench 2.1, Sol atteint 88,8 % et 91,9 % en mode Ultra, devant Claude Mythos 5 (88 %).
  • L’accès reste limité à quelques partenaires, à la demande du gouvernement américain, un régime qu’OpenAI juge « insoutenable ».
  • Sol est facturé 5 dollars par million de tokens en entrée et 30 en sortie, moitié moins que l’ancien Fable.

OpenAI a repris à Claude la couronne du code. Et ne peut pas la porter. Le gouvernement américain en restreint l’accès, et tout le commentaire s’arrête là : un laboratoire contre l’État. Le plus frappant est ailleurs.

Car si l’accès à GPT-5.6 Sol reste verrouillé, la cause n’est pas seulement bureaucratique. C’est la puissance du modèle elle-même qui le rend, selon les propres mots de l’entreprise, « insoutenable » à déployer. Pour la première fois, le benchmark gagné devient le problème à contenir.

Il y a quelques jours, nous décrivions comment l’administration américaine validait les accès à GPT-5.6 dossier par dossier, partenaire après partenaire. Depuis, OpenAI a sorti le modèle de sa boîte : trois variantes, une salve de chiffres et une grille tarifaire. La suite de l’histoire ne dissipe pas le malaise, elle l’explique.

Trois modèles, une même question

La gamme se décline en Sol, le modèle de pointe, Terra, équilibré pour le travail quotidien à moitié prix de GPT-5.5, et Luna, l’option la moins chère pour les gros volumes. S’y ajoutent deux régimes de calcul : un mode « max » qui laisse Sol raisonner plus longtemps, et un mode « ultra » qui répartit les tâches complexes sur des sous-agents en parallèle, au prix d’une consommation de tokens qui s’envole.

Le schéma de nommage, lui, calque ouvertement celui de Claude : un numéro pour la génération, des noms propres pour des paliers de performance permanents. OpenAI ne se contente plus de viser Anthropic, il en reprend la grammaire.

Battre Claude, et ne plus pouvoir le livrer

Les chiffres avancés par OpenAI placent Sol devant Claude Mythos 5 en programmation agentique. Sur Terminal-Bench 2.1, Sol obtient 88,8 %, et 91,9 % en mode Ultra, contre 88 % pour Mythos 5 et 84,3 % pour Fable 5 ; Gemini 3.1 Pro ferme la marche à 70,7 %. En biologie, sur le test GeneBench, Sol passe de 22 à 30 % face à la génération précédente, tout en brûlant moins de tokens.

C’est sur le terrain de la cybersécurité que tout se joue. Sur ExploitBench, qui mesure la capacité d’un agent à trouver et exploiter de vraies failles dans le moteur JavaScript V8 de Chrome, Sol égale la version préliminaire de Mythos en utilisant environ un tiers des tokens en sortie. Traduisez : le modèle devient aussi redoutable, mais bien moins cher à faire tourner. Et c’est exactement ce qui inquiète.

Un modèle taillé pour défendre, pas pour attaquer

OpenAI insiste : Sol est son meilleur modèle de cybersécurité, mais pensé comme un défenseur. Il repère et corrige les vulnérabilités mieux qu’il ne mène une attaque complète de bout en bout. Lors de tests sur Chromium et Firefox, il a trouvé des bugs et des primitives d’exploitation, sans jamais produire seul une chaîne d’attaque complète. L’entreprise affirme rester sous le seuil « Cyber Critical » de son cadre de préparation.

Le reste du discours est à l’avenant : 700 000 heures de GPU dépensées à chercher des « jailbreaks » universels pour s’en prémunir, des garde-fous intégrés au cœur du modèle plutôt qu’ajoutés par un filtre externe, un refus entraîné des demandes d’assistance cyber prohibées. On ne blinde pas ainsi un modèle anodin. Cette débauche de protections est l’aveu en creux de ce que Sol sait faire.

Le prix cassé d’un modèle qu’on ne peut pas avoir

Vient alors le paradoxe le plus net. Sol est facturé 5 dollars le million de tokens en entrée et 30 en sortie, contre 10 et 50 pour Fable à l’époque. Terra et Luna descendent encore, à 2,50 / 15 et 1 / 6 dollars. OpenAI a aussi revu son système de cache de prompt, avec des points de césure explicites et une durée de vie minimale garantie de trente minutes. Sur le papier, le modèle le plus puissant est aussi l’un des moins chers de son histoire. Sauf qu’on ne peut pas y accéder.

L’accès reste réservé à une poignée de partenaires « dont la participation a été communiquée » au gouvernement, via l’API et l’outil Codex. En cause, un décret signé ce mois-ci qui demande aux entreprises de soumettre volontairement leurs modèles les plus avancés à une revue gouvernementale jusqu’à trente jours avant leur sortie. Dean Ball, ancien conseiller de la Maison-Blanche sur l’IA et bientôt salarié d’OpenAI, y voit un régime de licence « involontaire » de fait pour l’IA de frontière, faute de critères de sûreté clairement définis.

Le précédent pèse lourd : après la sortie de son modèle public le plus puissant, Fable 5, Anthropic s’est vu ordonner d’en couper l’accès à tout ressortissant étranger, avant de le retirer entièrement. Mythos ne revient qu’au compte-gouttes, pour quelques organisations triées. OpenAI a obéi, mais s’en défend publiquement : « Nous ne pensons pas que ce type de processus d’accès gouvernemental doive devenir la norme à long terme. Il prive de nos meilleurs outils les utilisateurs, développeurs, entreprises et défenseurs réseau qui en ont besoin. »

La puissance s’est décrochée du déploiement

Voilà ce que le récit « OpenAI contre l’État » laisse filer. Ce qui rend GPT-5.6 difficile à livrer n’est pas un caprice administratif greffé de l’extérieur : c’est la capacité même que l’entreprise met en avant. Plus un modèle excelle à trouver des failles, plus il devient un objet à contenir. La performance et la disponibilité, longtemps synonymes dans cette industrie, viennent de se séparer.

Le calcul change pour les équipes qui bâtissent en production : le modèle le plus performant n’est plus forcément celui qu’on pourra brancher le mois prochain. Anticiper une sortie, c’est désormais lire un calendrier réglementaire autant qu’une note de version.

Mon avis

Le mot « insoutenable » d’OpenAI n’est pas une plainte, c’est un constat technique qui va devenir la règle. Je parie que les prochains modèles de frontière naîtront verrouillés par défaut, et que leurs fiches de benchmark serviront autant à séduire les clients qu’à justifier, auprès de l’État, pourquoi on les garde sous clé. L’industrie a passé dix ans à confondre « plus puissant » et « disponible » ; cette confusion vient de prendre fin, et personne dans les laboratoires n’a vraiment de plan pour l’après.

Sources

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *