Fable 5 revient bardé de nouveaux classificateurs

L’essentiel

Les contrôles à l’exportation américains sur Claude Fable 5 et Mythos 5 ont été levés le 30 juin ; Fable 5 redevient accessible mondialement le 1er juillet.
Anthropic ne se contente pas de rebrancher le modèle : il le redéploie avec un nouvel ensemble de classificateurs pour cibler et bloquer davantage de tâches offensives en cybersécurité.
L’origine du blocage : des chercheurs d’Amazon avaient contourné les garde-fous de Fable 5 pour lui faire repérer, puis exploiter, des failles logicielles.
Anthropic, Amazon, Microsoft et Google amorcent un cadre commun pour évaluer la gravité des « jailbreaks ».

Comment rebranche-t-on un modèle d’IA qu’un gouvernement jugeait assez dangereux pour l’interdire d’exportation trois semaines plus tôt ? La réponse d’Anthropic, ce 1er juillet, tient en une nuance qui dit beaucoup de l’état du secteur : pas d’un coup de tampon administratif, mais d’une couche de contrôle technique ajoutée au modèle lui-même.

Il y a quelques jours, nous écrivions que Mythos 5 venait d’être redéployé pendant que Fable 5, sa déclinaison grand public, restait suspendu dans l’attente des feux verts militaires. Depuis, la dernière barrière est tombée. Le Département du Commerce a levé, le 30 juin, les contrôles à l’exportation qui pesaient sur les deux modèles, et Anthropic a annoncé sur son compte officiel le retour de Fable 5, assorti cette fois d’un dispositif de sécurité inédit.

Un retour mondial acté en quelques jours

Le calendrier s’est débloqué vite. Anthropic indique dans son communiqué que Fable 5 sera à nouveau disponible dès le 1er juillet sur la plateforme Claude, Claude.ai, Claude Code et Claude Cowork, pour les utilisateurs du monde entier. Les abonnements Pro, Max, Team et une partie des offres Enterprise l’incluront jusqu’à 50 % de leurs limites hebdomadaires d’ici au 7 juillet, avant un basculement vers les crédits d’usage. L’accès via AWS, Google Cloud et Microsoft Foundry doit suivre dans un second temps.

Mythos 5, le modèle de cybersécurité le plus musclé de la maison, avait déjà été rétabli le 26 juin pour un groupe d’organisations américaines du programme Glasswing. Fable 5 complète donc le retour. Selon des informations de presse, le secrétaire au Commerce Howard Lutnick a signifié la levée par lettre, après qu’Anthropic s’est engagé à « détecter et traiter de façon proactive les risques de sécurité » liés aux modèles. C’est là que se niche la vraie nouveauté.

@AnthropicAI sur X

Le portique de sécurité greffé au modèle

Anthropic redéploie Fable 5 avec un nouvel ensemble de classificateurs de sécurité. Le mot peut intimider, le principe est simple. Un classificateur, ici, est un petit modèle-gardien branché en parallèle du modèle principal : il lit ce qui entre (votre prompt) et ce qui sort (la réponse), et il décide en temps réel si l’échange bascule dans une zone interdite, en l’occurrence l’usage offensif en cybersécurité.

L’image la plus juste est celle du portique de sécurité en aéroport. Le modèle, c’est l’avion : sa puissance ne change pas. Le classificateur, c’est le contrôle en amont qui inspecte les bagages et refoule ce qui ne doit pas monter à bord. Anthropic ajoute donc des portiques plus fins, calibrés pour attraper précisément les requêtes qui cherchent à transformer l’assistant en outil d’attaque. Le résultat visé n’est pas un modèle bridé sur tout, mais un modèle dont on resserre une catégorie d’usages bien identifiée.

Le jailbreak qui a tout déclenché

Pour comprendre l’ajout, il faut remonter à la cause. Le blocage du 12 juin est venu d’un rapport de chercheurs d’Amazon : ils avaient trouvé une méthode pour contourner les garde-fous de Fable 5 en le poussant à identifier une série de vulnérabilités logicielles. Dans un cas, le modèle est allé jusqu’à produire du code montrant comment exploiter la faille. C’est ce type de contournement, un « jailbreak » dans le jargon, qui a alarmé le gouvernement.

Anthropic apporte toutefois une précision qui relativise la panique initiale. Ses propres tests ont confirmé que des modèles moins capables, dont Claude Opus 4.8, GPT-5.5 et Kimi K2.7, repéraient les mêmes vulnérabilités que Fable 5 dans le rapport. Autrement dit, la capacité incriminée n’était pas une exclusivité du modèle le plus avancé. Interdire le seul Fable 5 aurait donc laissé la même capacité disponible ailleurs, et l’affaire pose surtout une question d’encadrement collectif : comment tenir une compétence que plusieurs modèles courants maîtrisent déjà ?

@AnthropicAI sur X

Reprendre Fable 5 sans mauvaise surprise

Côté usage, l’épisode a des conséquences très concrètes. D’abord, la disponibilité redevient mondiale, ce qui débloque les projets mis en pause pendant l’interdiction visant les ressortissants étrangers. Ensuite, attendez-vous à un modèle un peu plus prompt à refuser certaines requêtes de sécurité offensive : si vos usages touchent au test d’intrusion ou à l’analyse de vulnérabilités, les nouveaux classificateurs peuvent intercepter des demandes qui passaient avant. Cadrez vos prompts en conséquence et documentez le contexte défensif de vos tâches.

Enfin, l’affaire ne se referme pas sur un simple retour à la normale. Anthropic annonce avec Amazon, Microsoft, Google et d’autres partenaires Glasswing le lancement d’un cadre commun pour juger la gravité d’un jailbreak, une échelle partagée qui permettrait de trier les découvertes et de communiquer le niveau de risque de façon cohérente aux autorités. S’y ajoute une collaboration renforcée avec le gouvernement sur les tests avant lancement et le partage d’information.

Mon avis

Le retour de Fable 5 fera les gros titres. Le précédent qu’il installe mérite bien plus d’attention : lancer un modèle de pointe passera désormais par une couche de sécurité négociée, testée et validée avec l’État, pas par la seule décision de l’éditeur. Le classificateur devient un objet politique autant que technique. Je vois là le début d’une standardisation des garde-fous qui profitera aux gros acteurs capables de la financer, et compliquera sérieusement la vie des modèles ouverts, qui n’ont ni portique ni interlocuteur à qui rendre des comptes.

Fable 5 revient bardé de nouveaux classificateurs

Un retour mondial acté en quelques jours

Le portique de sécurité greffé au modèle

Le jailbreak qui a tout déclenché

Reprendre Fable 5 sans mauvaise surprise

Sources

Un autre article ?

45 000 prompts : Meta a sondé les garde-fous des IA rivales

ChatGPT à Brown : 50 fraudeurs, ou un examen périmé ?

Prompt injection : pourquoi 2026 ne la corrigera pas

Laisser un commentaire Annuler la réponse