Un laboratoire qui se présente comme le gardien de la sécurité de l’IA vient d’admettre qu’il avait failli transformer ses propres garde-fous en arme. Anthropic a fait machine arrière sur une mesure qui dégradait en secret les performances de son nouveau modèle, Claude Fable 5, pour quiconque cherchait à entraîner une IA concurrente.
La formule de l’entreprise est inhabituellement directe : « Nous avons fait le mauvais arbitrage et nous nous excusons de ne pas avoir trouvé le bon équilibre. » Reste une question que ce mea culpa n’efface pas : qui décide, et au nom de quoi, de ce qui relève vraiment de la sécurité ?
Ce que cachait le « system card »
Reprenons les faits. En début de semaine, Anthropic a lancé Claude Fable 5, première version grand public d’un modèle de sa classe Mythos, présentée comme sa plus puissante à ce jour. Avec elle, de nouveaux garde-fous : les requêtes touchant à la cybersécurité, la biologie ou la chimie sont réorientées vers un modèle moins capable, Opus 4.8, pour limiter les usages malveillants. Jusqu’ici, rien que de très attendu.
Mais une clause discrète, glissée dans le « system card » (la fiche technique qui documente le modèle), prévoyait un traitement à part pour un autre profil d’utilisateurs. Pour ceux qui tentaient d’exploiter Fable 5 dans le développement de modèles de pointe, Anthropic comptait dégrader volontairement les performances, et ce, de façon invisible. Pas de message, pas de refus affiché. Juste un modèle qui répond moins bien, sans que l’utilisateur sache pourquoi.
C’est cette opacité, plus que la restriction elle-même, qui a mis le feu aux poudres.
La différence entre interdire et saboter
Anthropic interdit déjà dans ses conditions d’utilisation l’usage de Claude pour bâtir des modèles rivaux. Elle n’est d’ailleurs pas la seule : OpenAI proscrit de la même façon, dans ses propres conditions, l’emploi de ses modèles pour en développer des concurrents. Bloquer un usage proscrit, le signaler, le réorienter : c’est défendable. Le faire en silence, c’est autre chose. Le vrai problème n’est pas la frontière tracée, c’est la lampe éteinte au-dessus.
Dean Ball, ancien conseiller IA de la Maison-Blanche, aujourd’hui chercheur à la Foundation for American Innovation, a résumé le malaise sur X : dégrader les performances sur la recherche en apprentissage automatique « sans le dire à l’utilisateur, c’est d’une hostilité choquante ». Selon Wired, qui a révélé l’affaire, il y voit même une contradiction interne : en bridant en sourdine les chercheurs, Anthropic se prive de la collaboration sur la sécurité de l’IA qu’elle dit appeler de ses vœux.
Will Brown, responsable recherche chez la jeune pousse Prime Intellect, va plus loin : « On avait l’impression qu’Anthropic disait au public : nous ne faisons confiance à personne d’autre pour faire de la recherche en IA. Nous sommes les seuls à devoir en faire. » L’image qu’il emploie est parlante : celle d’un laboratoire en train de retirer l’échelle derrière lui.
Pourquoi l’invisibilité changeait tout pour un praticien
Pour qui orchestre l’IA au quotidien, le diable était dans le silence. Un refus explicite, on le comprend, on l’ajuste, on cherche une autre voie. Une dégradation muette, elle, empoisonne le travail sans laisser de trace.
- Impossible de savoir si l’on enfreint une règle, puisque rien n’alerte au déclenchement du garde-fou.
- Impossible de distinguer un modèle qui plafonne d’un modèle qu’on bride : tout résultat médiocre devient suspect.
- Tout un écosystème de tiers qui évaluent les modèles de pointe (sécurité, fiabilité, performance) pouvait se retrouver faussé sans le savoir.
Brown pointe précisément ce dernier angle mort : que vaut un benchmark (test de référence) indépendant si le modèle testé sait reconnaître l’évaluateur et lui sert une version dégradée ? La confiance dans la mesure, socle de toute la discipline, se fissure.
Le correctif, et ce qu’il ne corrige pas
Anthropic rend donc ses garde-fous visibles. Sur le compte officiel de ses outils développeurs, l’entreprise précise que les requêtes signalées basculeront désormais ouvertement vers Opus 4.8, exactement comme pour la cybersécurité et la biologie. Si elle soupçonne une tentative de construire une IA très capable, elle préviendra : refus, ou réorientation assumée. La lampe est rallumée.
C’est une bonne nouvelle, et il faut le dire sans réserve. Mais le geste règle la forme, pas le fond. La restriction demeure : seuls quelques laboratoires de tête conservent un accès sans entrave à la recherche de pointe. Le sabotage caché disparaît ; l’asymétrie d’accès, elle, reste entière.
Cependant, un second point de friction subsiste, que le rétropédalage n’aborde pas. Fable 5 exige une rétention des données pour faire tourner ses nouveaux classificateurs : requêtes et réponses conservées jusqu’à 30 jours, et jusqu’à deux ans en cas d’infraction signalée, là où les autres modèles Claude tournent en rétention zéro. De quoi refroidir les usages sensibles, au point que Microsoft restreindrait le modèle en interne d’après plusieurs médias spécialisés.
Qui contrôle les garde-fous ?
L’épisode dépasse le simple couac de communication. Il met à nu une mécanique : la « sécurité » est aussi un levier, et un levier qui sépare ceux qui peuvent encore chercher de ceux qu’on relègue. Quand le même bouton sert à protéger le public et à freiner un concurrent, la frontière entre prudence et stratégie devient floue. Et c’est l’éditeur, seul, qui la trace.
Anthropic a corrigé le tir vite, sous la pression. Reste à voir si la transparence promise tiendra quand les enjeux commerciaux se feront plus pressants, et surtout qui, en dehors des laboratoires eux-mêmes, aura un jour son mot à dire sur ce que « sécuriser un modèle » est autorisé à vouloir dire.
Sources :