Google Research vient de valider un outil capable de vérifier qu’une donnée a bien été effacée d’un modèle. Mais l’annonce porte une réserve qui en dit plus long que le résultat : ce test ne fonctionne « pas encore sur les LLM ».
Autrement dit, la technique qui concentre aujourd’hui toutes les tensions réglementaires sur l’effacement reste, elle, hors de portée. C’est tout le paradoxe de ce travail présenté à la conférence AISTATS 2026.
Ce que Google Research a réellement démontré
Le framework s’appelle Regularized f-Divergence Kernel Tests. Signé Mónica Ribero, Antonin Schrab et Arthur Gretton, il s’attaque au machine unlearning (le désapprentissage automatique) : l’effacement ciblé d’une donnée dans un modèle déjà entraîné, sans tout réentraîner depuis zéro.
Son argument massue est le coût. Sur le mécanisme SVT3 de confidentialité différentielle (une méthode qui ajoute du bruit pour protéger les données individuelles), le test détecte des violations avec quelques milliers d’échantillons. L’outil de référence de Google, DP-Auditorium, en exigeait des millions pour un résultat comparable. Le rapport de force est sans appel.
Le gain technique est réel : le test à trois échantillons corrige un défaut connu de la méthode standard, qui déclenchait de fausses alertes dès que deux modèles réentraînés produisaient des distributions légèrement différentes. Sur le papier, l’audit devient enfin abordable.
Le test qui recale les méthodes d’effacement
Le plus instructif n’est pas que l’outil fonctionne, c’est ce qu’il révèle quand on le braque sur les techniques d’oubli existantes. Le verdict est sévère.
Dans les conditions expérimentales du papier, trois méthodes échouent à effacer réellement les données visées :
- Selective Synaptic Dampening (SSD), qui atténue les connexions liées à la donnée ;
- le pruning, qui élague une partie du réseau ;
- le finetuning, le réajustement classique.
Une seule technique passe l’examen : le random label (réattribution aléatoire des étiquettes). Trois approches sur quatre croyaient effacer ; le test démontre qu’elles laissaient la donnée influer sur le modèle. Voilà la vraie utilité de l’outil : non pas garantir l’oubli, mais débusquer les oublis de façade.
Pourquoi les LLM restent l’angle mort
Reste la réserve cruciale. Les validations publiées portent sur des benchmarks synthétiques et des jeux de physique des hautes énergies. Pas sur les grands modèles de langage. Or c’est précisément là que se joue la bataille de l’effacement.
Ce n’est pas un détail de calendrier, c’est un obstacle structurel. Un préprint d’octobre 2025 (arXiv:2510.16629) établit qu’un modèle ne peut jamais parfaitement oublier une donnée en ajustant ses seuls paramètres courants : il subsiste une empreinte résiduelle de l’information supposément effacée. Le test de Ribero et son équipe mesure cette empreinte. Il ne la fait pas disparaître.
D’autres équipes pointent le même mur. Feng et ses coauteurs (CMU, UK AI Security Institute, Oxford), dans un préprint de mai 2025, jugent les évaluations actuelles d’unlearning sur LLM tout simplement non concluantes. Un cadre d’audit spécifique aux LLM existe bien, publié par Chen et ses coauteurs (LMU Munich, Oxford, Siemens), mais le papier AISTATS 2026 ne s’y compare pas. Le terrain le plus sensible reste donc le moins balisé.
Une obligation légale sans méthode opposable
Le décalage devient gênant dès qu’on le confronte au droit. L’article 17 du RGPD ouvre un droit à l’effacement : une personne peut exiger la suppression de ses données. Appliqué à un modèle d’IA, cela revient à devoir prouver que ces données ont cessé d’influencer les sorties.
Le problème est que le droit pose une obligation de résultat, quand la technique ne fournit qu’une obligation de moyens floue. On sait désormais mieux détecter qu’un effacement a échoué. On ne sait toujours pas démontrer, sur un grand modèle de langage, qu’il a réussi.
Pour qui orchestre l’IA au quotidien, la leçon est immédiate : se méfier de toute promesse de « suppression » d’une donnée d’un modèle en production. Tant que l’audit reste cantonné aux benchmarks, la conformité affichée relève davantage de la déclaration que de la preuve. Mieux vaut traiter l’effacement comme un objectif à vérifier que comme une fonctionnalité acquise.
Auditer l’oubli ou repenser l’apprentissage ?
Le mérite de ce travail est d’avoir abaissé le coût de la vérification et exposé l’illusion de plusieurs méthodes d’effacement. C’est un progrès d’hygiène, pas une solution.
Car si trois techniques sur quatre échouent et que les LLM échappent encore à l’audit, la question se déplace. Reste à voir si l’on parviendra un jour à faire oublier proprement un modèle, ou s’il faudra apprendre à ne plus jamais lui confier ce qu’on pourrait un jour vouloir lui reprendre.