Zum Inhalt springen

Studie: LLMs geben Trainingsdaten selten ungefragt preis

Share on:

Auf den Punkt: LLMs können durch gezielte Prompt-Attacken zu Datenlecks gezwungen werden, geben Trainingsdaten in alltäglichen Nutzungsszenarien jedoch nur mit niedriger Wahrscheinlichkeit preis.

Große Sprachmodelle können Trainingsdaten reproduzieren, aber unter normaler Nutzung geschieht das selten. Forscher zeigen einen erheblichen Unterschied zwischen Worst-Case-Szenarios und realistischer Propensity.

Ein Forscherteam führte eine umfassende Evaluierung durch, um zwischen zwei Typen von Memorization zu unterscheiden: erzwungener Extraktion (Capability) und natürlichem Lecken (Propensity). Die Studie wertet zwei vollständig offene Modelle – Comma und DFM Decoder – auf zwei Datensätzen und zwei Sprachen aus. Dazu wurde PropMe eingeführt, ein Framework, das klassische Fähigkeitstests mit realistischeren Szenarien kontrastiert.

Die zentralen Befunde deuten auf einen stabilen Abstand zwischen theoretischer Extraktion und praktischem Risiko hin: Prefix-basierte Attacken elicieren deutlich stärkere Memorization-Signale als generische oder Datensatz-spezifische Prompts. Hingegen bleiben die Propensity-Scores insgesamt niedrig. Das heißt: Die Modelle können Trainingsdaten offenbaren, wenn sie gezielt danach abgefragt werden – tun dies aber in typischen, nicht-adversarialen Nutzungssituationen nur selten.

DFM Decoder, das kontinuierlich aus Comma vortrainiert wurde, zeigte reduzierte Memorization und Memorization-Propensity für den Common-Pile-Datensatz. Dies belegt, dass Memorization-Fähigkeiten durch späte Trainingsläufe, die partiell unterschiedliche Daten betonen, sinken können. Die Forscher untersuchen auch Mechanismen wie SimpleTrace, ein leichtgewichtiges Tracingverfahren auf Basis von Infini-Gram, das Ausgaben zu großflächigen Trainingskorpora zurückführt und verbatim, near-verbatim sowie propensity-transformierte Metriken berechnet.

Für CTOs und Sicherheitsverantwortliche folgt daraus: Memorization-Audits sollten sowohl Worst-Case-Szenarien als auch reale Leak-Propensity berichten, um ein vollständiges Risikobild zu erhalten. Ein Modell, das unter normaler Nutzung kaum Trainingsdaten preisgeben würde, aber unter Attacken anfällig ist, erfordert andere Schutzmaßnahmen als eines mit hoher spontaner Leak-Rate.


Quelle: arxiv.org · Erschienen 3. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.0.

Share on: