Auf den Punkt: RepSelect isoliert forget-set-spezifische Repräsentationen durch selektives Kollabieren von Gradienten-Komponenten und erreicht eine 4-50x höhere Robustheit gegen Relearning-Angriffe als bisherige Verfahren.
Forscher präsentieren RepSelect, eine Methode, die Large Language Models spezifische Inhalte dauerhaft vergessen lässt, ohne ihre allgemeinen Fähigkeiten zu beeinträchtigen. Das Verfahren zeigt sich robust gegen Versuche, das Unlearning durch Fine-Tuning rückgängig zu machen.
Das Problem bisheriger Unlearning-Methoden liegt darin, dass sie Repräsentationen bearbeiten, die sowohl im Retain-Set als auch im Subspace vorkommen, den ein Angreifer durch Fine-Tuning wiederherstellen kann. Dies führt zu zwei Konsequenzen: Unlearning beschädigt allgemeine Fähigkeiten des Modells, und das Vergessen lässt sich durch wenige Beispiele (Few-Shot Prompting) oder gezieltes Nachtraining wieder umkehren.
RepSelect behebt dies durch Representation Selectivity: Das Verfahren isoliert Repräsentationen, die ausschließlich mit dem Forget-Set verknüpft sind, indem es die Top-Hauptkomponenten der Weight-Gradienten vor jedem Update kollabiert. Dadurch bleiben allgemeine Fähigkeiten des Modells erhalten, während gleichzeitig deutlich weniger Material für einen Fine-Tuning-Angreifer verfügbar bleibt.
Die Evaluation umfasst zwei Forget-Kategorien (biohazardous knowledge und abusive tendencies) sowie vier Model-Familien: Llama 3, Qwen 3.5, Gemma 4 E4B und DeepSeek V2 Lite – darunter Dense-Architekturen und Mixture-of-Experts-Modelle. RepSelect wird gegen fünf etablierte Baselines (GradDiff, NPO, SimNPO, RMU, UNDIAL) verglichen.
Die Ergebnisse zeigen, dass RepSelect eine 4-50x größere Reduktion der Post-Relearning-Accuracy erreicht als die stärkste Baseline und nahezu perfekt robust gegen Few-Shot-Prompting-Angriffe ist. Damit wird deutlich, dass das selektive Targeting von Repräsentationen ein notwendiger Schritt zu robustem und tiefem Unlearning bei LLMs ist.
Quelle: arxiv.org · Erschienen 14. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.