Auf den Punkt: STRIDE formalisiert Trainingsdatenzuordnung als Sparse-Recovery-Problem im Aktivierungsraum und erreicht dabei eine Größenordnung schneller Ergebnisse als gradientbasierte Verfahren.
Forscher stellen STRIDE vor, ein Verfahren zur Rückverfolgung von Modellvorhersagen auf einzelne Trainingsdaten in großen Sprachmodellen. Das Verfahren erreicht dabei eine 13× schnellere Berechnung als bisherige Methoden, indem es Aktivierungen statt Parameter-Gradienten nutzt.
Training Data Attribution (TDA) zielt darauf ab, Vorhersagen eines Modells auf seine Trainingsdaten zurückzuverfolgen. Der Goldstandard verfolgt hierbei kausale Interventionen: Beobachtung der Modellveränderungen, wenn Daten hinzugefügt oder entfernt werden. Für große Sprachmodelle ist wiederholtes Nachtraining jedoch rechnerisch prohibitiv teuer.
Der in STRIDE beschriebene Ansatz verlegt das Problem vom Parameterraum in den Aktivierungsraum. Statt Gradienten über Milliarden von Parametern zu verfolgen — eine praktisch unmögliche Aufgabe — lernt das Verfahren leichtgewichtige „Steering Operators“, die die Verhaltensänderung widerspiegeln, die durch Training auf Datenteilmengen entsteht. Durch Messung, wie diese Operatoren Testvorhersagen beeinflussen, werden individuelle Trainingsbeispieleinflüsse über dünn besetzte lineare Zerlegung (sparse linear decomposition) wiederhergestellt.
Die Methode formuliert das Problem im Sinne kompressiver Abtastung (compressive sensing). Empirisch erreicht STRIDE auf LLM-Pre-Training-Daten State-of-the-Art-Ergebnisse bei 13× schnellerer Berechnung als bisherige Verfahren. Praktische Anwendungen umfassen Datenselektion, Erkennung von Datenverschmutzung und qualitative Modelanalyse.
Quelle: arxiv.org · Erschienen 2. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.