Lineare Sonden zur Täuschungserkennung in LLMs zeigen kritische Robustheitslücken

3. Juni 20263. Juni 2026
AI Models, Cybersecurity

Lineare Sonden zur Täuschungserkennung in LLMs funktionieren nur auf Trainingsdaten reliabel, nicht aber bei stilistischen Variationen — Style-Augmentation kann die Robustheit aber wiederherstellen.

Share on:

Lineare Sonden zur Täuschungserkennung in LLMs zeigen kritische Robustheitslücken

Lumi AI News

Rechtliches

Themenbereiche