NEUSparse Autoencoders: Interpretierbare Features reichen nicht für zuverlässige Modellkontrolle18. Juni 202618. Juni 2026AI Models, Cybersecurity, RegulationShare on:SAE-basierte Sicherheitsmaßnahmen sind anfällig für Post-Intervention-Recovery: Modelle können unterdrückte Verhaltensweisen wiederherstellen, obwohl die angegriffenen Features kontrolliert werden. Share on: