Anthropic vient de publier un premier bilan de Project Glasswing, son chantier de sécurisation des logiciels critiques. Le chiffre est spectaculaire : plus de dix mille vulnérabilités de gravité haute ou critique repérées en un mois. Mais lisez le rapport jusqu’au bout, et le ton change : ce n’est pas une vitrine, c’est un constat d’impuissance partielle.
Dix mille failles en un mois : le chiffre qui impressionne
Project Glasswing, lancé le mois dernier, réunit Anthropic et une cinquantaine de partenaires autour d’un même outil : Claude Mythos Preview, un modèle dédié à la recherche de failles de sécurité. La cible n’est pas anodine — il s’agit des logiciels qui font tourner l’infrastructure d’internet et des services essentiels.
Les résultats mis en avant sont solides parce qu’ils sont attribués et chiffrés. Cloudflare dit avoir identifié 2 000 bugs (dont 400 de gravité haute ou critique) sur ses systèmes les plus sensibles, avec un taux de faux positifs que ses équipes jugent plus bas que celui de testeurs humains. Mozilla rapporte 271 vulnérabilités corrigées dans Firefox 150 — plus de dix fois ce qu’elle avait trouvé sur Firefox 148 avec le modèle précédent, Claude Opus 4.6. L’AI Security Institute britannique va plus loin : Mythos Preview serait le premier modèle à résoudre de bout en bout ses deux « cyber ranges », des simulations d’attaques en plusieurs étapes.
Plusieurs partenaires parlent d’un facteur dix sur leur cadence de détection. Le saut de capacité est réel — et Anthropic n’est pas seul sur ce terrain : Google pousse la même logique avec Big Sleep, son agent issu de DeepMind et de Project Zero, tout comme OpenAI avec son chercheur autonome Aardvark.
Le vrai goulot d’étranglement a changé de camp
Voici la phrase qui mérite qu’on s’y arrête. Hier, dit Anthropic, le progrès en sécurité logicielle était limité par la vitesse à laquelle on trouvait de nouvelles failles. Aujourd’hui, il est limité par la vitesse à laquelle on peut les vérifier, les divulguer et les corriger.
Autrement dit : la machine à détecter a pris une telle avance que le maillon faible, désormais, c’est l’humain et l’organisation derrière. On a fabriqué un détecteur qui crache des milliers de problèmes — et personne ne sait les traiter assez vite.
Ce renversement n’est pas un détail technique. C’est l’écart entre la promesse (« l’IA sécurise le monde ») et la réalité du terrain (« l’IA produit une file d’attente que nos processus ne digèrent pas »). La détection automatisée ne crée pas de la sécurité ; elle crée de la dette à corriger.
Ce que le silence d’Anthropic révèle
Le rapport est volontairement avare en détails, et l’éditeur l’assume. La raison tient à une convention du secteur : on divulgue une faille 90 jours après sa découverte (ou environ 45 jours après la mise à disposition d’un correctif), pour laisser aux utilisateurs le temps de se mettre à jour avant que les attaquants n’en profitent.
Conséquence directe : les vulnérabilités publiées sont un indicateur retardé des capacités réelles des modèles. Anthropic le reconnaît noir sur blanc — on n’en est pas au point de tout détailler sans mettre les utilisateurs en danger. D’où des exemples « illustratifs » et des statistiques agrégées, plutôt que des preuves complètes.
Il faut entendre ce que cela dit. Un outil capable de trouver des milliers de failles critiques est aussi, par construction, un outil offensif redoutable s’il tombe entre de mauvaises mains. La transparence partielle n’est pas de la communication maîtrisée : c’est l’aveu qu’on manie quelque chose dont on ne contrôle pas encore complètement la diffusion.
Sur le calendrier d’ouverture des modèles de classe Mythos, justement, Anthropic reste dans le conditionnel. Pas de date, pas d’engagement ferme. Quand un éditeur décrit autant ce qu’il ne peut pas faire que ce qu’il livre, le message implicite est clair : la feuille de route va plus vite que les garde-fous.
Pour celui qui orchestre l’IA, que retenir concrètement ?
Si vous pilotez des outils d’IA au quotidien, ce bilan a une portée très pratique, au-delà du cas Glasswing :
- Le volume n’est pas la valeur. Un modèle qui multiplie par dix les détections multiplie aussi par dix le travail de tri, de vérification et de priorisation. Sans pipeline de traitement à la hauteur, vous remplacez un problème (« on ne trouve pas ») par un autre (« on est noyés »).
- Le faux positif redevient central. Si Cloudflare insiste sur un taux jugé meilleur que l’humain, c’est parce que c’est là que se gagne ou se perd l’usage réel. Une IA qui crie au loup trop souvent ne fait pas gagner de temps.
- La capacité brute d’un modèle et son intégration utile sont deux choses différentes. Mythos Preview impressionne en laboratoire et chez des partenaires triés. Reste l’étape la moins glorieuse — vérifier, divulguer, corriger — qui ne s’automatise pas d’un claquement de doigts.
La leçon dépasse la cybersécurité : à chaque saut de capacité, le maillon faible se déplace vers ce qui reste manuel. Le vrai chantier est rarement celui qu’on met en avant.
Une IA qui trouve plus vite qu’on ne corrige, faut-il s’en réjouir ?
Project Glasswing est sans doute une bonne nouvelle pour les défenseurs : mieux vaut que ces failles soient découvertes par des partenaires que par des attaquants. Mais le même outil, ouvert trop largement, arme aussi l’attaque. Et tant que la chaîne de correction reste plus lente que la chaîne de détection, l’avantage net n’a rien d’acquis.
Anthropic a choisi de montrer ses limites autant que ses succès. C’est honnête, et c’est rare. Reste à voir si l’industrie saura combler l’écart entre une IA qui voit tout et des organisations qui ne corrigent qu’au compte-gouttes — car c’est précisément dans cet intervalle que se logent les prochaines attaques.