Machine Unlearning : Google Research valide un test d’audit, mais pas encore sur les LLMs
Google Research a présenté à AISTATS 2026 un test statistique destiné à auditer le machine unlearning, c’est-à-dire l’effacement ciblé de données dans un modèle déjà entraîné. Le framework, nommé Regularized f-Divergence Kernel Tests, développé par Mónica Ribero, Antonin Schrab et Arthur Gretton, promet de réduire le coût expérimental de certains audits. Par exemple, sur le mécanisme SVT3 de confidentialité différentielle, il détecte des violations avec quelques milliers d’échantillons, là où l’outil DP-Auditorium nécessitait des millions. Toutefois, sa portée est limitée, car les validations publiées concernent des benchmarks synthétiques et des jeux de physique des hautes énergies, sans inclure les grands modèles de langage, qui sont au cœur des préoccupations réglementaires autour de l’effacement et de la gouvernance des données.
Le test vise à corriger un défaut connu du test standard à deux échantillons (MMD), où deux modèles réentraînés sur les mêmes données mais avec des tailles de lot différentes peuvent produire des distributions distinctes, entraînant ainsi de fausses alertes d’échec d’unlearning. Le nouveau test utilise un cadre relatif à trois échantillons et une sélection automatique de la f-divergence, une me de distance entre distributions, pour mieux s’adapter aux différents types de dérive.
Le contraste de coût expérimental est un argument clé. Sur le mécanisme SVT3, le framework détecte des violations avec quelques milliers d’échantillons, contre des millions pour DP-Auditorium, tout en maintenant un taux de détection comparable. Cependant, le gain est documenté uniquement sur SVT3 et non sur l’ensemble des mécanismes de confidentialité différentielle. De plus, trois méthodes (Selective Synaptic Dampening, pruning et finetuning) ont été jugées incapables d’effacer effectivement les données ciblées dans les conditions expérimentales simplifiées du papier; seule la technique random label a réussi le test relatif à trois échantillons.
Les travaux d’arXiv:2510.16629 publiés en octobre 2025 montrent qu’un modèle ne peut jamais oublier parfaitement des données en ajustant uniquement ses paramètres courants, laissant une empreinte résiduelle des informations supposément effacées. Des chercheurs de la CMU et de l’UK AI Security Institute jugent les évaluations actuelles d’unlearning sur les grands modèles de langage non concluantes, tandis qu’un cadre d’audit spécifique aux LLMs a été publié simultanément par Chen et al. de LMU Munich, Oxford et Siemens, mais n’est pas comparé dans le papier AISTATS 2026.
Le RGPD, via son article 17 sur le droit à l’effacement, permet à une personne d’exiger la suppression de ses données. Cela implique de prouver que les données concernées n’influencent plus les outputs d’un modèle d’IA. Cependant, cette obligation se heurte à une zone grise technique, concernant la manière de démontrer que ces données ne continuent plus d’influencer le comportement du modèle.
À l’échelle européenne, le cadre le plus récent ne comble pas ce vide. Le Code de bonnes pratiques GPAI, publié par la Commission européenne en juillet 2025, est un outil volontaire visant à aider les fournisseurs à démontrer leur conformité à l’article 53 du règlement AI Act, mais ne prescrit aucune méthode de vérification de l’effacement effectif d’une donnée dans un modèle déjà déployé.
Le test de Ribero, Schrab et Gretton vise à fournir une me statistique défendable d’un effacement réussi. Toutefois, tant que la validation expérimentale ne s’étend pas au-delà des benchmarks synthétiques et des modèles de physique pour inclure les grands modèles de langage, la chaîne de preuve attendue par les délégués à la protection des données reste incomplète.
Source : ActuIA.
