
L’essentiel
- D’après Epoch AI, Claude Fable 5 atteint 88 % de réussite sur le palier le plus difficile du benchmark FrontierMath, contre environ 75 % pour GPT-5.5, soit treize points d’écart.
- La progression est brutale : début 2026, le prédécesseur Opus 4.5 passait sous la barre des 10 % sur ce même palier.
- Le 11 juin, une directive du gouvernement américain invoquant la sécurité nationale a suspendu l’accès à Fable 5 et Mythos 5, contraignant Anthropic à les désactiver pour tous ses clients.
- Conséquence pour les utilisateurs : un modèle de pointe peut devenir indisponible du jour au lendemain pour un motif réglementaire absent de toute fiche technique.
Un modèle bat tous les records sur le banc d’essai mathématique le plus redouté du moment. Et trois jours plus tard, plus personne n’y a accès. Voilà le paradoxe que la couverture générale a soigneusement coupé en deux.
D’un côté, les chiffres de Claude Fable 5. De l’autre, une directive du gouvernement américain qui suspend son accès. Les deux histoires parlent du même modèle. Et c’est leur collision qui est intéressante.
Ce que disent les chiffres, et ce qu’on en retient
D’après les mesures d’Epoch AI, l’organisation qui maintient le benchmark FrontierMath, Fable 5 atteint 87 % de réussite sur les niveaux 1 à 3 et 88 % sur le palier 4 (v2), réservé aux problèmes les plus ardus. Pour situer l’écart, GPT-5.5 plafonne autour de 75 % sur ce même niveau. Treize points, sur une échelle où chaque point se paie cher.
La progression est brutale dans le temps aussi. Début 2026, le prédécesseur Opus 4.5 passait sous la barre des 10 % sur ce palier 4. En quelques mois, on est passé de l’échec quasi total à la quasi-résolution. Tous les modèles ont été testés selon le même protocole standard d’Epoch AI, à effort de raisonnement maximal : la comparaison tient.
Le récit dominant s’arrête là : Anthropic prend la tête, OpenAI suit, prochain épisode au prochain modèle. C’est vrai, et c’est insuffisant.
Le détail que tout le monde a contourné
Car ce modèle si performant, vous ne pouvez déjà plus l’utiliser. Le 11 juin, Anthropic a publié un communiqué sobre : le gouvernement américain, invoquant la sécurité nationale, a émis une directive de contrôle à l’export suspendant tout accès à Fable 5 et Mythos 5 pour n’importe quel ressortissant étranger, y compris ses propres salariés non-américains. Effet net : Anthropic a dû désactiver les deux modèles pour l’ensemble de ses clients afin de rester en conformité.
Le motif ? Selon le communiqué d’Anthropic, le gouvernement soupçonnerait l’existence d’une méthode de contournement des garde-fous, un jailbreak. L’éditeur dit avoir examiné la démonstration : quelques vulnérabilités mineures et déjà connues, que d’autres modèles publics savent d’ailleurs trouver sans aucun contournement. À ce stade, le gouvernement n’aurait fourni qu’une preuve verbale d’un jailbreak étroit, non universel.
Mettez les deux faits côte à côte. Le modèle qui franchit un palier inédit en raisonnement mathématique est aussi celui qu’on retire du marché du jour au lendemain. Le benchmark devient une vitrine sans magasin.
Le vrai sujet n’est pas la performance, c’est l’accès
On a passé deux ans à se demander quel modèle était le plus capable. La question change de nature. Quand le plus capable peut être débranché par décret, en quelques heures, la métrique qui compte n’est plus le score sur FrontierMath : c’est la stabilité de l’accès.
Pour qui orchestre l’IA au quotidien, le message est rude :
- Un modèle de pointe n’est pas un acquis. C’est une dépendance, soumise à un risque réglementaire qui ne figure dans aucune fiche technique.
- Construire un pipeline critique sur le modèle le plus performant, c’est accepter qu’une lettre administrative reçue à 17h21 le fasse disparaître le soir même.
- La portabilité entre modèles cesse d’être une coquetterie d’architecte. Elle devient une assurance.
Le paradoxe va plus loin. Le motif invoqué, c’est la cybersécurité. Or Anthropic affirme que ses garde-fous sur Fable étaient si stricts que des utilisateurs s’en plaignaient, et qu’ils ont résisté à des milliers d’heures de red-teaming mené avec le gouvernement américain lui-même et l’AISI, l’institut britannique de sécurité de l’IA. On coupe donc l’accès au modèle justement parce qu’il était le plus capable, sur la foi de failles que des modèles moins surveillés exposent déjà.
Couper le sommet, est-ce réduire le risque ?
C’est la zone d’ombre. Interdire le modèle le plus avancé ne fait pas disparaître les capacités qu’il incarne : elles continuent d’exister chez les concurrents, parfois moins encadrés. Le risque ne s’évapore pas, il se déplace vers des outils dont les garde-fous sont moins éprouvés.
Cependant, on comprend la logique de l’État : à mesure que les modèles approchent la résolution autonome de problèmes durs, code compris, le curseur entre outil et arme se brouille. Le palier mathématique de Fable 5 n’est pas un détail de classement. C’est exactement le genre de saut de capacité qui déclenche les réflexes de souveraineté.
Le vrai enjeu n’est donc pas de savoir qui domine le benchmark ce mois-ci. C’est de comprendre qu’on entre dans une phase où la capacité d’un modèle et son accessibilité deviennent deux variables indépendantes, parfois opposées.
Mon angle
Je le dis sans détour : on regarde le mauvais chiffre. Le 88 % sur FrontierMath fera les titres, mais le nombre qui compte, c’est zéro, le nombre d’heures entre la directive et la coupure. Mon pari : d’ici dix-huit mois, les contrats entreprises se négocieront moins sur les performances que sur des garanties de continuité d’accès, et le premier éditeur qui saura promettre un modèle que l’État ne peut pas éteindre d’un revers de lettre prendra une longueur d’avance que les benchmarks ne mesurent pas.
Reste une question ouverte. Si chaque saut de capacité majeur appelle désormais une réaction de l’État, faut-il encore courir au plus performant, ou apprendre à bâtir sur le plus disponible ? Il nous appartient de choisir sur quel terrain on accepte de dépendre.
