Auf den Punkt: RACES ermöglicht die automatische Komposition verifizierbarer Umgebungen durch rekursive Kombination, worauf hin DeepSeek-R1-Distill-Qwen-14B um 3,1 Punkte und Qwen3-14B um 2,3 Punkte bei sechs Benchmarks zulegte.
Forscher haben RACES entwickelt, ein Framework, das verifizierbare Umgebungen für Reinforcement Learning wie LEGO-Bausteine rekursiv kombiniert. Dadurch lässt sich die Reasoning-Generalisierung von Language Models mit deutlich weniger Trainingsumgebungen verbessern.
Das Framework RACES (Recursive Automated Composition for Environment Scaling) adressiert ein fundamentales Skalierungsproblem beim Reinforcement-Learning-Training von Large Language Models: Während bisherige Arbeiten zeigen, dass mehr verifizierbare Umgebungen die RL-Performance verbessern, scheitern manuelle oder individuelle Konstruktionsmethoden an linearen Skalierungsgrenzen. RACES löst dies durch eine Architektur, die Umgebungen als komposierbare Bausteine begreift.
Die technische Grundidee basiert auf Typkompatibilität: Wenn die Ausgabetypen einer Umgebung den Eingabetypen einer anderen entsprechen, fusioniert RACES sie automatisch zu einer neuen verifizierbaren Umgebung. Implementiert mit 300 Basis-Umgebungen definiert das Framework vier Kompositionsoperatoren – SEQUENTIAL, PARALLEL, SORT und SELECT – die unterschiedliche Reasoning-Muster induzieren und zusammengesetzte Umgebungen generieren.
Die Evaluierung belegt konsistente Verbesserungen: DeepSeek-R1-Distill-Qwen-14B steigt durchschnittlich um 3,1 Punkte von 48,2 auf 51,3, Qwen3-14B von 58,8 auf 61,1. Die Tests erfolgten auf sechs Benchmarks, die während der Konstruktion der Trainingsumgebungen nicht sichtbar waren. Besonders relevant für die Ressourceneffizienz: RACES erreicht Performance vergleichbar mit Training auf 300 einzelnen Umgebungen mit lediglich 50 Basis-Umgebungen, was erhebliche Einsparungen bei der Umgebungserstellung bedeutet.
Für CTOs interessant ist der Implikation auf Produktionssysteme: Die rekursive Komposition ermöglicht es, spezialisierte Reasoning-Fähigkeiten mit deutlich weniger Engineering-Aufwand und iterativer Umgebungsdefinition zu skalieren. Dies reduziert Entwicklungszeit für Custom-LLM-Deployments, bei denen verifiziertbare Trainingsumgebungen entscheidend sind.
Quelle: arxiv.org · Erschienen 9. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.