Auf den Punkt: MemTrain verbessert die Gedächtnisfähigkeiten von LLM-Agenten durch selbstüberwachtes Vortraining auf Basis von zwei komplementären Rekonstruktionsaufgaben, ohne dass kostspielige annotierte Daten erforderlich sind.
Forscher haben MemTrain entwickelt, ein Framework zur Voraboptimierung des Kontextgedächtnisses von großen Sprachmodellen ohne annotierte Trainingsdaten. Das Verfahren nutzt zwei gekoppelte Proxy-Aufgaben über unlabeled Wikipedia-Korpora und zeigt Verbesserungen von bis zu 17,67 Punkten gegenüber direktem Task-spezifischem Training.
Das zentrale Problem besteht darin, dass LLM-Agenten über lange Interaktionssequenzen Informationen speichern und abrufen müssen. Bisherige Lösungsansätze erfordern typischerweise End-to-End-Training mit Reinforcement Learning auf konkreten Aufgaben. Dies ist aber aufwändig und teuer: Hochwertig annotierte Probleme für speicherintensive Szenarien sind schwer zu beschaffen, und die resultierende Trainingsdaten zeigen oft unzureichende Diversität für allgemeine Gedächtnisverhalten.
MemTrain adressiert dies durch zwei simultane Proxy-Aufgaben über unlabeled Wikipedia: (1) Eine End-to-End-Rekonstruktionszielgröße, bei der das Modell nach mehreren Gedächtnisupdate-Runden maskierte Entitäten wiederherstellen muss — dies fördert Gedächtnisstabilität vom Endergebnis her; (2) Eine Intermediate-Memory-Recall-Aufgabe, die das Modell zwingt, gelöschte historische Informationen aus Zwischenzuständen des Gedächtnisses zu rekonstruieren. Dies fördert konsistente Kompression und Gedächtnisvollständigkeit. Beide Ziele werden gemeinsam mittels GRPO optimiert.
Experimente auf Long-Text-QA und suchgestützten QA-Benchmarks zeigen konsistente Verbesserungen: Über verschiedene Modelle hinweg erreicht MemTrain Gewinne von bis zu 17,67 Punkten im Downstream-Training speicherintensiver Reasoning-Aufgaben im Vergleich zu direktem Task-spezifischem Post-Training.
Quelle: arxiv.org · Erschienen 1. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.