RISE erreicht mit einem begrenzten Interaktionsraum ähnliche Genauigkeit wie unbegrenzte Shell-Interaktion, reduziert aber die Anfragen-Kosten auf etwa ein Viertel und skaliert deutlich besser auf große Korpora.
Agentenbasiertes Reasoning verbessert die Regelanwendung in Sprachmodellen, zeigt aber stark unterschiedliche Ergebnisse je nach Modellstärke und Aufgabentyp.
PaW trainiert Umweltmodelle während des Policy-Trainings anhand derselben RL-Rollouts, was die Agent-Performance konsistent verbessert, ohne zusätzliche Simulatoren oder Inference-Kosten zu benötigen.