NEUSteerbarkeit von Sprachmodellen lässt sich früh vorhersagen15. Juni 202615. Juni 2026AI Models, Claude AIShare on:Ein trainierbarer Klassifizier prognostiziert anhand früher Hidden States mit 0,7 Macro-F1-Score, ob Activation Steering erfolgreich sein wird, ohne komplette Generierungen durchlaufen zu müssen. Share on: