Auf den Punkt: Lineare Sonden zur Täuschungserkennung in LLMs funktionieren nur auf Trainingsdaten reliabel, nicht aber bei stilistischen Variationen — Style-Augmentation kann die Robustheit aber wiederherstellen.

Lineare Sonden, die an Aktivierungsmuster von Sprachmodellen trainiert werden, erreichen bei sauberen Tests AUROC-Werte über 0,96, versagen aber unter verteilten Verschiebungen systematisch. Eine Analyse der Gemma-3-Familie (1B bis 27B Parameter) offenbart, dass diese Erkennungsverfahren fundamentale geometrische Schwächen haben.

Lineare Sonden werden zunehmend als Metriken zur Erkennung deceptiver Verhaltensweisen in großen Sprachmodellen vorgeschlagen. Ein systematischer Stress-Test dieser Methode zeigt jedoch ein gravierendes Robustheitsproblem: Während die Sonden auf sauberen Benchmarks AUROC-Werte von über 0,998 erreichen, kollabieren sie unter stilistischen Verschiebungen. Die Forschung untersucht vier Hypothesen zur Kodierung deceptiver Aktivierungen: (1) eine einzelne lineare Richtung, (2) ein mehrdimensionaler Unterraum, (3) eine konvexe Kegelhülle und (4) Entropie als Proxy-Maß.

Die Ergebnisse verwerfen systematisch vereinfachte Annahmen: Die Single-Direction-Hypothese wird abgelehnt — ein einzelner Vektor (k=1) erfasst nur 0,61–0,80 AUROC. Style-augmentierte Sonden erreichen dagegen bei unsichtbaren Stilistiken ein durchschnittliches AUROC von 0,979–0,983. Das Entropie-Proxy-Modell wird ebenfalls verworfen (maximale Korrelation |ρ|=0,454). Stattdessen zeigt sich: Täuschung bildet keinen signifikanten linearen Unterraum pro Domäne (k*=0), aber mehrdimensionale Sonden (k≥5) können das Signal durch verteilte, unterschwellige Features wiederherstellen.

Für CTOs ist entscheidend: Die beobachtete Fragilität der Sonden reflektiert nicht eine architektonische Limitation der Modelle, sondern mangelnde Trainingsverteilungs-Breite. Style-Augmentation stellt zuverlässige Erkennung sowohl bei 4B als auch bei 27B Parametern her. Das vermeintliche inverse Skalierungsmuster ist ein Trainingsdatenartefakt, nicht ein echtes skalierungsabhängiges Phänomen. Dies bedeutet: Lineare Sonden können zur Täuschungserkennung funktionieren, erfordern aber robuste Augmentation und mehrdimensionale Geometrie, nicht einzelne Richtungen.

Quelle: arxiv.org · Erschienen 27. Mai 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.

Share on:

Lineare Sonden zur Täuschungserkennung in LLMs zeigen kritische Robustheitslücken

Lumi AI News

Rechtliches

Themenbereiche