Auf den Punkt: PaW trainiert Umweltmodelle während des Policy-Trainings anhand derselben RL-Rollouts, was die Agent-Performance konsistent verbessert, ohne zusätzliche Simulatoren oder Inference-Kosten zu benötigen.
Reinforcement Learning (RL) lehrt große Sprachmodelle zwar, welche Handlungen belohnt werden, sagt ihnen aber nichts über die Umweltfolgen ihrer Aktionen. Eine neue Methode namens PaW nutzt die bereits anfallenden RL-Daten zur gleichzeitigen Optimierung eines Umweltmodells ohne Mehraufwand beim Inference.
Reinforcement Learning verbessert die Performance von LLM-Agenten durch Belohnungssignale, liefert aber wenig Information über die Auswirkungen der Aktionen auf die Umgebung. World Modeling könnte diese Lücke füllen, erfordert aber typischerweise separate Simulatoren, zusätzliche Trainingsphasen oder zusätzliche Rechenzeit beim Inference – alles praktische Hürden für den Produktiveinsatz.
Die Forscher argumentieren, dass die während RL-Rollouts erzeugten Daten bereits das Signal enthalten, das man braucht: Jede Transition koppelt eine Aktion mit der resultierenden nächsten Observation. Auf dieser Basis schlagen sie PaW vor – ein Framework, das World-Modeling-Supervision direkt während des Policy-Trainings als zusätzliches Lernziel hinzufügt, ohne das Inference-Verhalten zu verändern.
Um diese zusätzliche Supervision informativ und stabil zu gestalten, führt PaW drei Komponenten ein: eine auf Action-Entropie basierende Auswahl der WM-Trainingsdaten, einen rausch-toleranten WM-Loss und adaptive Loss-Gewichtung in Abhängigkeit von den Belohnungen. Experimente auf drei agentic-Task-Benchmarks zeigen durchgehend Verbesserungen gegenüber reinen RL-Baselines – über verschiedene Modelle und RL-Algorithmen hinweg.
Das Ergebnis ist praktisch relevant: Die ohnehin erzeugten RL-Rollouts sind eine verwertbare Quelle für World-Modeling-Training, ohne dass Engineers zusätzliche Infrastruktur bauen müssen. Das reduziert den Implementierungsaufwand und ermöglicht es, bestehende RL-Trainingspipelines mit verbesserter Agent-Robustheit zu erweitern.
Quelle: arxiv.org · Erschienen 31. Mai 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.