ICA-basierte Analyse ermöglicht schnelle Exploration interpretierbarer Richtungen in Sprachmodellen ohne aufwendiges Training zusätzlicher Autoencodern.
Lineare Sonden zur Täuschungserkennung in LLMs funktionieren nur auf Trainingsdaten reliabel, nicht aber bei stilistischen Variationen — Style-Augmentation kann die Robustheit aber wiederherstellen.