Auf den Punkt: Ein trainierbarer Klassifizier prognostiziert anhand früher Hidden States mit 0,7 Macro-F1-Score, ob Activation Steering erfolgreich sein wird, ohne komplette Generierungen durchlaufen zu müssen.

Activation Steering ermöglicht es, das Verhalten von Sprachmodellen zur Laufzeit zu kontrollieren – ob es funktioniert, hängt aber stark von Prompt, Konzept und Modell ab. Forscherinnen und Forscher haben eine Methode entwickelt, die bereits nach wenigen generierten Token vorhersagen kann, ob ein Steeringversuch erfolgreich sein wird.

Activation Steering ist ein lightweight Verfahren zur Kontrolle des Verhaltens von Sprachmodellen während der Inferenz. Es erfordert jedoch aufwendige Optimierungsläufe und die Evaluierung vollständiger Generierungen, um die optimale Steeringkonfiguration zu ermitteln – besonders weil Erfolg oder Misserfolg stark davon abhängt, welcher Prompt, welches Konzept, welches Modell und welche Steeringstärke zum Einsatz kommen.

Die neue Studie „ASTEER“ untersucht, ob sich Steerbarkeit bereits aus den internen Zuständen eines Modells am Anfang der Generierung vorhersagen lässt – konkret nach den ersten wenigen Token. Dazu wurde ein Testbett mit 1,4 Millionen Steeringvorgängen aufgebaut: 150 Konzepte wurden durchgetestet, jede Steuerung als erfolgreich oder fehlgeschlagen markiert. Durch die Analyse der frühen Decodierungsdynamik wurden Features extrahiert, die Hidden States vor und nach dem Steering über alle Layer und die ersten Decodierungsschritte hinweg vergleichen. Diese Features zeigen, wie sich Steeringeffekte durch das Modell ausbreiten – ein Schlüsselinformation für die Vorhersage.

Ein Gradient Boosting Decision Trees (GBDT) Klassifizier wurde auf Basis dieser Features trainiert, um vorherzusagen, ob ein Intervention zu unter-steer, erfolgreich oder über-steer führt – ohne dass die komplette Autoregressiven Ausrollung durchgeführt werden muss. Der Klassifizier erreichte auf unbekannten Konzepten einen Macro-F1-Score von etwa 0,7, was zeigt, dass die frühen Hidden States substantielle, strukturierte Informationen über die eventuelle Steering-Effektivität enthalten.

Für CTOs und Systemarchitekten ist dies besonders relevant: Der Steerability Predictor kann als Leitfaden für die Optimierung der Steeringstärke genutzt werden und liefert dabei nahezu optimale Performance mit einem Bruchteil der Rechenlast. Das verkürzt Tuningzyklen erheblich und reduziert die Kosten für Produktionsworkloads, bei denen Steuerung zum Einsatz kommt.

Quelle: arxiv.org · Erschienen 9. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on:

Steerbarkeit von Sprachmodellen lässt sich früh vorhersagen

Lumi AI News

Rechtliches

Themenbereiche