DeepMind ne fait plus confiance à ses propres IA

Google DeepMind vient de publier sa feuille de route sur la sécurité des agents IA, et le résumé qui circule tient en une ligne : un géant de l’IA admet à demi-mot que l’alignement ne suffira pas. Aveu de faiblesse pour les uns, opération de communication pour les autres. La lecture est tentante, mais réductrice. DeepMind ne signe pas un mea culpa : le laboratoire change de doctrine.

L’hypothèse qui renverse tout

Jusqu’ici, la sécurité des modèles reposait sur une promesse implicite : on entraîne l’IA à être utile et inoffensive, et on lui fait confiance pour exécuter ce qu’on attend d’elle. L’alignement était posé comme la première et, souvent, la dernière ligne de défense.

La feuille de route AI Control part de la prémisse inverse. La formule de DeepMind est limpide : « Au lieu d’assumer que l’IA fera toujours ce que nous souhaitons, nous nous demandons : et si ce n’était pas le cas ? » Ce n’est plus une nuance de prudence, c’est un point de départ.

Le détail qui désamorce les fantasmes : selon les données du laboratoire, la grande majorité des incidents ne viennent pas d’une intention malveillante. Un agent interprète mal une consigne, ou se montre trop zélé pour atteindre son objectif. Le danger n’a pas besoin d’une IA hostile. Un agent simplement obéissant et mal cadré suffit.

Un agent traité comme un employé qui pourrait mal tourner

C’est là que l’approche devient inhabituelle. DeepMind applique à ses agents internes un cadre de modélisation des menaces emprunté à la cybersécurité, et les considère comme des « insider threats » (menaces internes) : on les traite comme un collaborateur qui dispose déjà d’un accès au système d’information et qui pourrait déraper. DeepMind n’est d’ailleurs pas seul sur cette ligne : Anthropic défend de son côté un cadre « Zero Trust » qui traite lui aussi les agents comme des acteurs non fiables, à surveiller et à cantonner plutôt qu’à croire sur parole.

@GoogleDeepMind sur X

Pour cela, le laboratoire s’appuie sur MITRE ATT&CK, la base de référence du secteur qui répertorie les tactiques et techniques d’attaque observées sur le terrain. Chaque comportement potentiellement dangereux est décomposé en briques traçables, ce qui permet de repérer une dérive avant qu’elle ne fasse des dégâts, et même de mener des exercices pour vérifier que les défenses tiennent.

L’image que propose DeepMind est celle du moniteur d’auto-école et de ses doubles commandes. On laisse l’élève conduire, on lui accorde sa confiance, mais on garde la main sur le frein. Les permissions de l’agent ne sont pas données d’emblée : elles s’élargissent au fur et à mesure que son comportement est vérifié. Accès incrémental, confiance gagnée par preuves.

Des IA qui surveillent d’autres IA

Le cœur opérationnel du dispositif tient en un principe que beaucoup d’équipes vont devoir digérer : on ne surveille pas un agent à la main, on le fait surveiller par d’autres agents.

DeepMind décrit des systèmes d’IA de confiance déployés comme « superviseurs ». Leur rôle : relire en continu le raisonnement, les actions et les plans de l’agent au travail pour détecter une sortie de route. Si le superviseur voit l’agent tenter une action nuisible, il peut l’interrompre avant l’impact. Détection d’un côté, prévention et réponse de l’autre.

@GoogleDeepMind sur X

Le laboratoire assume même de mesurer l’efficacité du contrôle sur trois indicateurs concrets : la couverture (la part du trafic effectivement surveillée), le rappel (la part des comportements déviants réellement attrapés) et le temps de réaction. Trois chiffres qui transforment une intention de sécurité en quelque chose d’auditable.

Ce que ça change quand on orchestre des agents

Pour qui assemble des agents au quotidien, l’enseignement est direct et un peu inconfortable. La sécurité d’un système agentique ne se règle pas au niveau du modèle. Elle se joue au niveau de l’architecture qui l’entoure.

Concrètement, cela veut dire bâtir dès maintenant les couches que DeepMind décrit comme une défense en profondeur : cloisonnement (sandboxing), résistance aux injections de prompt, supervision par un second agent, octroi progressif des droits. La plupart des stacks agentiques actuelles, montées pour aller vite, n’ont rien de tout cela. Un agent reçoit ses accès complets dès le premier appel et personne ne relit ses plans.

L’autre signal, plus stratégique, vise le marché. DeepMind chiffre à 2 900 milliards de dollars la valeur économique que les agents IA pourraient créer aux États-Unis d’ici 2030. Présenter sa méthode comme un « modèle pour l’ensemble du secteur » n’est pas neutre : c’est aussi une manière de poser un standard avant les autres. À chacun de lire cette générosité avec le recul qui s’impose.

@GoogleDeepMind sur X

Une fenêtre qui se referme

Reste l’argument le plus sérieux de l’annonce, et celui que le commentaire pressé a tendance à survoler. DeepMind affirme qu’il existe une fenêtre étroite pour intégrer ces protocoles structurels avant que les systèmes multi-agents ne passent à l’échelle mondiale.

La logique se tient. Tant qu’un agent travaille seul et sous surveillance, une erreur reste circonscrite. Le jour où des centaines d’agents s’appellent, se délèguent des tâches et agissent les uns sur les autres, greffer après coup une couche de contrôle relève du chantier impossible. Ces garde-fous se posent dans les fondations, pas en rénovation.

Le point aveugle est tout aussi clair. Faire surveiller des agents par d’autres agents repousse le problème d’un cran sans l’éliminer : qui garantit l’alignement du superviseur ? DeepMind ne prétend pas l’avoir résolu, et c’est sans doute le chantier des prochaines années. Mais le laboratoire a au moins acté une chose : on ne sécurisera pas des agents autonomes en espérant qu’ils restent sages. On les sécurise en supposant qu’ils ne le seront pas.

Reste une dernière interrogation, et elle ne porte pas sur la justesse de la posture. Elle porte sur le nombre d’équipes qui la prendront au sérieux avant que la fenêtre ne se referme.

Sources

Securing the future of AI agents

DeepMind ne fait plus confiance à ses propres IA

L’hypothèse qui renverse tout

Un agent traité comme un employé qui pourrait mal tourner

Des IA qui surveillent d’autres IA

Ce que ça change quand on orchestre des agents

Une fenêtre qui se referme

Sources

Un autre article ?

Alignement « robuste » d’OpenAI : où sont les chiffres ?

Anthropic coupe un client sur ordre de Washington

ChatGPT santé : et si l’IA gagnait surtout le triage ?

Laisser un commentaire Annuler la réponse