Auf den Punkt: WARP rekonstruiert die Trainingsquellen-Mischungen von Sprachmodellen aus ihren Gewichten und erreicht dabei mittlere absolute Fehler von 0,046 bei BERT und 0,104 bei GPT-2.

Forschende haben einen Rahmen entwickelt, der die Datenzusammensetzung trainierter Sprachmodelle allein aus ihren veröffentlichten Gewichten rekonstruiert. Das Verfahren nutzt Modellinterpolation, um fehlende Trainingstrajekorien zu simulieren und versteckte Muster in der Gewichtsgeometrie offenzulegen.

Foundation Models werden routiniert veröffentlicht, ihre Trainungsrezepte — etwa die Mischgewichte, die bestimmen, wie verschiedene Datenquellen kombiniert wurden — bleiben jedoch in der Regel undokumentiert. Diese Asymmetrie erschwert unabhängigen Forschenden das Verständnis der tatsächlichen Trainingsverteilung, die hinter einem Modell steht. Bisherige Methoden zur Inferenz von Trainingsdaten wie Membership Inference arbeiten auf Stichprobenebene und können die globale Zusammensetzung des Trainingskorpus nicht charakterisieren.

WARP (Weight-Space Analysis for Recovering Training Data Portfolios) adressiert dieses Problem durch direkte Rekonstruktion von Domänenmischungen aus den Modellgewichten. Das Verfahren interpoliert zwischen Basis- und fein-abgestimmtem Modell mittels Model Merging und erzeugt so pseudo-Checkpoints, die die fehlende Trainingstrajektorie approximieren. Diese simulierten Kurven legen eine geometrische Spur der Trainingsdaten im Gewichtsraum frei. Aus diesen Abdrücken extrahiert WARP geometrische Merkmale und bildet sie auf Domänenanteile ab — entweder über einen parameterlosen Softmax-Readout oder einen auf synthetischen Mischungen trainierten MLP-Projektor.

In kontrollierten Experimenten mit BERT und GPT-2 erreicht WARP durchschnittliche mittlere absolute Fehler (MAE) von 0,046 beziehungsweise 0,104 bei der Rekonstruktion von Domänenmischungen. Das System übertrifft damit sowohl klassische Membership Inference als auch eine Variante mit Zugang zur echten Trainingstrajektorie. Die Methode könnte Transparenzlücken schließen und es ermöglichen, die tatsächliche Datengrundlage veröffentlichter Modelle nachzuvollziehen.

Quelle: arxiv.org · Erschienen 1. Juli 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.3.

Share on:

WARP: Rückgewinnung von Trainingsdatenmischungen aus Modellgewichten

Lumi AI News

Rechtliches

Themenbereiche