
85,6 %. C’est le score que revendique OpenAI pour son nouveau modèle GPT-5.5-Cyber sur CyberGym, un test de cybersécurité offensive. Juste devant les 83,8 % de Mythos 5, le modèle spécialisé d’Anthropic. Soit 1,8 point d’écart, et le premier classement chiffré de cette nature entre les deux laboratoires.
Il y a quelques jours, nous décrivions comment Daybreak, l’initiative cyber d’OpenAI, déplaçait le centre de gravité de la sécurité : trouver les failles n’est plus le goulot d’étranglement, les corriger l’est devenu. Depuis, l’entreprise a ajouté une couche que son annonce initiale gardait floue : un score, un adversaire nommé, et une place de numéro un. C’est ce passage du discours au classement qui mérite qu’on s’y arrête.
D’où sort ce 85,6 %
CyberGym ne mesure pas une compétence vague. Le test vérifie si un agent sait reproduire des failles connues dans des environnements logiciels réels : reprendre une vulnérabilité documentée, la rejouer, prouver qu’elle fonctionne. Une épreuve de fidélité technique, pas un sondage d’opinion.
OpenAI publie en réalité trois chiffres, pas un. CyberGym à 85,6 %, ExploitGym à 39,5 % (transformer une vulnérabilité en exploit fonctionnel), et SEC-bench Pro à 69,8 % (découverte de failles sur la durée). Trois axes, trois difficultés très différentes : passer de 85 % sur la reproduction à 39 % sur l’exploitation dit assez que ces tests ne mesurent pas la même chose, et qu’un score isolé ne résume rien.
1,8 point d’avance, et qui le valide ?
Voilà le point que l’accroche escamote. Les 85,6 % comme les 83,8 % de Mythos sont annoncés par OpenAI. C’est OpenAI qui choisit le benchmark, fait tourner les modèles et publie le tableau comparatif. À ce stade, aucun tiers indépendant n’a rejoué la mesure.
1,8 point sur un classement maison, ça reste fragile. Sur ce type de tests, la marge tient parfois à la configuration de l’agent, au nombre de tentatives autorisées, à la version exacte évaluée. Anthropic, de son côté, n’a pas publié de contre-mesure sur les trois mêmes épreuves. On compare donc un chiffre récent à un chiffre dont on ignore les conditions précises de production.
Ce que le tableau ne montre pas
Regardez la colonne Mythos : un seul chiffre, 83,8 % sur CyberGym. Rien sur ExploitGym, rien sur SEC-bench Pro. Sur deux des trois benchmarks « clés » revendiqués, OpenAI ne se compare qu’à ses propres modèles, GPT-5.5 et GPT-5.4. L’écart le plus parlant n’est d’ailleurs pas face à Anthropic, mais en interne : 25,95 % à 39,5 % sur ExploitGym d’une génération à l’autre, près de 14 points gagnés à la maison.
Autrement dit, l’affirmation « GPT-5.5-Cyber est en tête sur tous les benchmarks clés » repose, pour l’essentiel, sur une comparaison à soi-même. Le duel avec Mythos, lui, se joue sur une seule ligne du tableau.
Le chiffre qui compte est ailleurs
Si une donnée mérite l’attention dans cette annonce, ce n’est pas le 85,6 %. Depuis mars, le plugin Codex Security a scanné plus de 30 millions de commits sur plus de 30 000 bases de code. Plus de 500 000 correctifs ont été signalés automatiquement comme appliqués, et 70 000 confirmés à la main par des relecteurs humains.
Ces ordres de grandeur pointent ce qu’aucun benchmark ne capture : le volume réellement passé en production, sous supervision humaine. 70 000 corrections validées manuellement, c’est une mesure d’usage, pas une promesse de laboratoire. Et c’est sur ce terrain, pas sur 1,8 point de CyberGym, que se jouera la crédibilité du modèle.
OpenAI étend par ailleurs le programme à plus de 25 entreprises de sécurité (Cisco, CrowdStrike, Cloudflare, Palo Alto Networks, IBM…) et à plusieurs États, dont la France. Avec Patch the Planet, montée avec Trail of Bits, le laboratoire vise les projets open source critiques comme cURL, Python ou Go. Là, le score n’est plus une ligne de tableau : c’est le nombre de failles refermées avant qu’un attaquant ne les trouve.
Reste le point aveugle de toute l’opération : ces scores, OpenAI les produit et les publie. Tant qu’un laboratoire tiers ou une agence comme l’ENISA, déjà partenaire, n’aura pas rejoué CyberGym dans ses propres conditions, le classement demeure une déclaration. Un argument commercial soigneusement construit, mais une déclaration.
Sources : OpenAI, Daybreak ; @OpenAIDevs
