Claude und andere LLM-Agenten durch kombiniertes Policy- und World-Model-Training effizienter2. Juni 20262. Juni 2026AI Models, Claude AI, Claude CodeShare on:PaW trainiert Umweltmodelle während des Policy-Trainings anhand derselben RL-Rollouts, was die Agent-Performance konsistent verbessert, ohne zusätzliche Simulatoren oder Inference-Kosten zu benötigen. Share on: