Auf den Punkt: Ein neues Training-Paradigma ermöglicht es LLMs, In-Context-Wissen eigenständig in ihre Parameter zu integrieren und sich ohne menschliche Überwachung weiterzuentwickeln.

Forscher stellen einen "Schlaf"-Mechanismus vor, der Sprachmodelle in die Lage versetzt, kontinuierlich zu lernen und kurzfristige Erkenntnisse in stabile Langzeitfähigkeiten zu überführen. Das System kombiniert Wissensdestillation mit Reinforcement Learning für autonome Selbstverbesserung.

Das zentrale Problem bestehender Large Language Models liegt in ihrer Unfähigkeit, kontinuierlich zu lernen und temporäres Wissen aus Kontextfenstern dauerhaft in ihre Modellgewichte zu integrieren. Während aktuelle LLMs bei Aufgaben mit sofortigem Feedback oder In-Context Learning gute Ergebnisse zeigen, fehlert ihnen die Fähigkeit, diese Erkenntnisse länger zu konservieren und zu verallgemeinern.

Das vorgestellte „Sleep“-Paradigma besteht aus zwei Phasen: (1) Memory Consolidation erfolgt durch „Knowledge Seeding“ – ein Destillationsprozess, bei dem Wissen eines kleineren Modells in ein größeres Netzwerk übertragen wird, um Kapazität zu schaffen und gleichzeitig Wissen zu bewahren. Die Implementierung kombiniert On-Policy-Destillation mit RL-basiertem Imitation Learning. (2) Dreaming bezeichnet eine Selbstverbesserungsphase, in der das Modell mittels Reinforcement Learning einen Lehrplan aus synthetischen Daten generiert, um neues Wissen zu trainieren und bestehende Fähigkeiten zu verfeinern – ohne externe Annotation.

Experimentell zeigen sich Vorteile in langfristigen Sequenzaufgaben, kontinuierlichem Lernen, Wissensintegration und Few-Shot-Generalisierung. Für CTOs bedeutet dies eine potenzielle Reduktion von Trainingszyklen und Retraining-Kosten, da Modelle nach Deployment eigenständig von ihren Fehlermustern lernen können, ohne vollständiges Retraining mit Originaldaten erforderlich zu machen.

Quelle: arxiv.org · Erschienen 1. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.

Share on:

LLMs lernen durch Schlaf: Selbstoptimierung und Wissenskonsolidierung

Lumi AI News

Rechtliches

Themenbereiche