Zum Inhalt springen

STRIDE: Trainings­daten­einfluss in LLMs via Sparse Recovery nachverfolgen

Share on:

Auf den Punkt: STRIDE formalisiert Trainings­datenzuordnung als Sparse-Recovery-Problem im Aktivierungsraum und erreicht dabei eine Größenordnung schneller Ergebnisse als gradient­basierte Verfahren.

Forscher stellen STRIDE vor, ein Verfahren zur Rückverfolgung von Modellvorhersagen auf einzelne Trainingsdaten in großen Sprachmodellen. Das Verfahren erreicht dabei eine 13× schnellere Berechnung als bisherige Methoden, indem es Aktivierungen statt Parameter-Gradienten nutzt.

Training Data Attribution (TDA) zielt darauf ab, Vorhersagen eines Modells auf seine Trainingsdaten zurückzuverfolgen. Der Goldstandard verfolgt hierbei kausale Interventionen: Beobachtung der Modellveränderungen, wenn Daten hinzugefügt oder entfernt werden. Für große Sprachmodelle ist wiederholtes Nachtraining jedoch rechnerisch prohibitiv teuer.

Der in STRIDE beschriebene Ansatz verlegt das Problem vom Parameterraum in den Aktivierungsraum. Statt Gradienten über Milliarden von Parametern zu verfolgen — eine praktisch unmögliche Aufgabe — lernt das Verfahren leichtgewichtige „Steering Operators“, die die Verhaltensänderung widerspiegeln, die durch Training auf Datenteilmengen entsteht. Durch Messung, wie diese Operatoren Testvorhersagen beeinflussen, werden individuelle Trainings­beispieleinflüsse über dünn besetzte lineare Zerlegung (sparse linear decomposition) wiederhergestellt.

Die Methode formuliert das Problem im Sinne kompressiver Abtastung (compressive sensing). Empirisch erreicht STRIDE auf LLM-Pre-Training-Daten State-of-the-Art-Ergebnisse bei 13× schnellerer Berechnung als bisherige Verfahren. Praktische Anwendungen umfassen Datenselektion, Erkennung von Datenverschmutzung und qualitative Modelanalyse.


Quelle: arxiv.org · Erschienen 2. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.

Share on: