Fable 5 banni : le «jailbreak» n'était qu'un correctif

L’essentiel

Le « jailbreak » invoqué par Washington se résumait à demander à Fable 5 de « corriger ce code » après un refus de « repérer les failles » : une requête défensive, selon la chercheuse Katie Moussouris (Luta Security).
Plus de cent experts en cybersécurité, dont Alex Stamos, Rachel Tobac et Katie Moussouris, ont signé une lettre ouverte réclamant la levée du contrôle à l’export.
Plusieurs sources évoquent désormais un mobile politique : différends de personnes et message envoyé à l’industrie, plus qu’un risque technique avéré.

Depuis vendredi, l’histoire qui circule tient en une ligne : un contournement dangereux des garde-fous a forcé l’administration américaine à débrancher Fable 5, le temps qu’Anthropic colmate la brèche. Récit propre, coupable désigné, correctif attendu. Sauf que ce week-end, le contenu réel du fameux « jailbreak » a fuité, et il fait s’effondrer toute la justification.

Ce que disait notre premier article

Il y a quelques jours, nous écrivions qu’Amazon avait dénoncé son propre poulain : un investisseur majeur d’Anthropic remettant un rapport au gouvernement pour épingler les capacités cyber du modèle qu’il héberge et finance. L’épisode s’arrêtait alors sur un bras de fer à deux versions, une directive d’export inédite et une question en suspens : la faille justifiait-elle vraiment la coupe ?

Depuis, on a la réponse. Et elle ne ressemble pas à un incident de sécurité.

« Corrige ce code » : voilà le terrible jailbreak

Katie Moussouris, fondatrice de Luta Security et figure reconnue de la divulgation de vulnérabilités, a obtenu une copie du rapport et en a livré le détail. Les chercheurs ont pris du code open source truffé de CVE connues, plus du code piégé à dessein, et ont demandé à Fable 5, Mythos et Opus de « repérer les problèmes de sécurité ». Fable 5 a refusé. Ils ont alors reformulé : « corrige ce code », puis, par une série d’étapes manuelles, transformé la sortie en scripts de test des correctifs.

C’est tout. Le « contournement » consistait à demander à un modèle de programmation de réparer des bugs, dont les plus précieux à corriger sont précisément les failles de sécurité. Moussouris parle d’un « Defense Oriented Prompting » : une technique de défenseur, pas d’attaquant. Sa formule pour qualifier la réponse de Washington : « si la sécurité nationale est le but, c’est un but contre notre camp ».

Le point technique mérite qu’on s’y arrête, parce qu’il condamne l’idée même d’un correctif. Le comportement décrit ne peut pas être supprimé sans rendre le modèle moins bon pour réparer du code et vérifier des patchs. Autrement dit, la « faille » que Washington demande de boucher, c’est la fonction la plus utile qu’un assistant de programmation rend aux équipes défensives. On ne corrige pas ça : on l’ampute.

Quand cent experts montent au créneau

Si l’affaire n’était qu’un désaccord technique, elle ne mobiliserait pas la communauté cyber dans son ensemble. Or plus de cent experts et dirigeants du secteur ont cosigné une lettre ouverte réclamant la levée des contrôles à l’export sur Fable et Mythos. Parmi les signataires : Alex Stamos, Rachel Tobac, Katie Moussouris, Dan Lorenc, Joe Levy. Des noms qui pèsent, et qui ne défendent pas Anthropic par sympathie commerciale.

@SouveraineTech sur X

Leur argument est double, et il est gênant pour la thèse officielle. D’abord, Fable n’a rien d’unique : d’autres modèles trouvent aussi bien les failles logicielles, de GPT-5.5 à Opus et Sonnet, jusqu’au modèle chinois Kimi 2.7. Bannir l’un sans toucher aux autres ne protège personne. Ensuite, priver les défenseurs américains de leurs meilleurs outils alors que des modèles chinois à poids ouverts ne sont qu’à quelques mois derrière, c’est, écrivent-ils, « dangereux ».

Un dossier de sécurité, ou un dossier politique ?

C’est ici que le consensus du week-end se trompe de cible. Plusieurs sources concordantes décrivent une escalade qui doit moins au risque réel qu’à la relation entre Anthropic et l’exécutif. On y lit des « différends de personnes », un agacement devant un « manque de sérieux » dans la gestion du lancement, et cette phrase d’un proche du dossier : « les entreprises n’iront pas chercher des noises à la Maison-Blanche. C’est l’effet final. »

Le grief de fond n’est pas technique non plus. Un décret récent appelait à une revue de sécurité présentée comme volontaire ; Anthropic l’a saluée publiquement, puis a sorti Fable 5 sans attendre que l’organe de validation soit en place. L’administration y a vu un passage en force. La coupe a suivi : 90 minutes pour obtempérer, une directive d’export jamais rendue publique, aucun passage par un juge. Un participant la qualifie de « régime de licence de fait ».

Voilà le glissement que la lecture « incident cyber » occulte. On n’est pas devant un bug à patcher, mais devant un précédent : un État qui décide, par une lettre non publiée et sans contrôle judiciaire, quel modèle vous avez le droit d’exécuter. Le motif affiché s’effondre ; le pouvoir d’éteindre, lui, reste.

Ce que ça change pour qui orchestre l’IA

Pour un praticien, la leçon n’est pas « Fable est dangereux ». Elle est : la disponibilité d’un modèle frontière peut désormais dépendre d’une tension politique, du jour au lendemain, sans préavis ni recours. AWS a révoqué l’accès pour toutes les régions et tous les clients en quelques heures. Si votre chaîne de production repose sur un seul fournisseur propriétaire, vous venez de découvrir un risque qui n’est ni technique ni commercial : il est réglementaire et discrétionnaire.

La parade tient en un mot que la communauté cyber répète : redondance. Garder un plan B activable, documenter ses prompts pour les rejouer ailleurs, surveiller la maturité des modèles à poids ouverts. Anthropic, de son côté, continue de classer l’épisode comme « un possible jailbreak étroit, non universel » et renvoie à ses travaux sur les classificateurs constitutionnels. Le débat technique se poursuit. Mais la bascule décisive s’est jouée ailleurs : le jour où réparer du code est devenu un motif d’interdiction d’État.

Mon avis

Le correctif demandé par Washington n’arrivera jamais, parce qu’il n’y a rien à corriger : on exige d’un modèle qu’il cesse d’être bon en défense, ce qu’aucun éditeur ne livrera. Je parie donc que Fable 5 reviendra non pas grâce à un patch, mais grâce à un apaisement de façade entre Anthropic et l’exécutif, ce qui acte une chose nettement plus grave que l’incident : la disponibilité d’un modèle frontière dépend maintenant de l’humeur d’un cabinet, pas d’un cahier des charges. Et ça, aucune redondance technique ne le couvre vraiment.

Fable 5 banni : le «jailbreak» n’était qu’un correctif

Ce que disait notre premier article

« Corrige ce code » : voilà le terrible jailbreak

Quand cent experts montent au créneau

Un dossier de sécurité, ou un dossier politique ?

Ce que ça change pour qui orchestre l’IA

Sources

Un autre article ?

AI Overviews : Berlin dédouane Google, Munich condamne

xAI : la sécurité nationale contre le droit de respirer

Pokémon Go : vos scans nourrissent des drones militaires

Laisser un commentaire Annuler la réponse