RACES ermöglicht die automatische Komposition verifizierbarer Umgebungen durch rekursive Kombination, worauf hin DeepSeek-R1-Distill-Qwen-14B um 3,1 Punkte und Qwen3-14B um 2,3 Punkte bei sechs Benchmarks zulegte.
FlowTracer modelliert Informationspropagation als gerichteten Graphen und leitet Token-Credits aus globaler Flussstruktur ab, um Reinforcement-Learning-Signale präzise auf entscheidende Reasoning-Schritte zu konzentrieren.
FlowTracer weist Tokens Credit basierend auf ihrem gemessenen Informationsdurchsatz im Attention-Graphen zu statt alle gleich zu behandeln, was konsistente Leistungsgewinne bei Reasoning-Aufgaben bringt.
Reasoning Arena ersetzt uninformative Rewards durch Head-to-Head-Vergleiche von Lösungsversuchen und reduziert dabei die benötigte Rechenzeit um 27 bis 41 Prozent.
CHERRL ermöglicht durch kontrollierte Bias-Injektion eine reproduzierbare Analyse von Reward-Hacking-Mechanismen und automatische Detektion von Exploitations-Beginn in LLM-basiertem Training.
ThoughtFold identifiziert und entfernt überflüssige Explorations-Schritte in Reasoning-Ketten, senkt den Token-Verbrauch um 56% bei DeepSeek-R1-Distill-Qwen-7B und erhält dabei State-of-the-Art-Genauigkeit.
GRAIL nutzt Gradient-Aktivierungs-Salienz, um relevante Reasoning-Schritte stärker zu trainieren als irrelevante Token, und erreicht 3,60% Genauigkeitsverbesserung ohne separate Prozess-Level-Überwachung.
Ein CPU-basierter RL-Controller optimiert adaptives Sampling beim Test-Time Scaling und reduziert Rechenaufwand sowie Latenz gegenüber heuristischen Verfahren.
PaW trainiert Umweltmodelle während des Policy-Trainings anhand derselben RL-Rollouts, was die Agent-Performance konsistent verbessert, ohne zusätzliche Simulatoren oder Inference-Kosten zu benötigen.