Zum Inhalt springen

RACES: Automatische Komposition überprüfbarer Umgebungen für LLM-Training

Share on:

Auf den Punkt: RACES ermöglicht durch automatische Komposition von 50 Basis-Umgebungen die gleiche Trainings-Leistung wie 300 einzelne Umgebungen.

Forscher stellen ein Framework vor, das verifiable Environments als rekursiv zusammensetzbare Bausteine nutzt, um Reinforcement Learning für Sprachmodelle effizienter zu skalieren. Die Methode verbessert das Reasoning von DeepSeek-R1 und Qwen um 3 bis 2 Punkte bei geringerem Ressourceneinsatz.

RACES (Recursive Automated Composition for Environment Scaling) nutzt ein Kerneinsicht: Wenn die Ausgabeart einer Umgebung mit der Eingabeart einer zweiten übereinstimmt, lassen sich beide automatisch zu einer neuen verifizierbaren Umgebung zusammenfügen. Auf dieser Basis wird ein Kompositionssystem aufgebaut, das aus vier Operatoren besteht: SEQUENTIAL (Hintereinanderausführung), PARALLEL (gleichzeitige Ausführung), SORT (Sortierung) und SELECT (Auswahl). Diese Operatoren erzeugen unterschiedliche Reasoning-Muster, die das Verallgemeinerungsvermögen des Modells fördern.

Das Framework wurde mit 300 individuellen Umgebungen implementiert und evaluiert. Die Ergebnisse zeigen konsistente Verbesserungen bei RL-Training auf zusammengesetzten Umgebungen. DeepSeek-R1-Distill-Qwen-14B erreichte im Durchschnitt einen Zuwachs von 3,1 Punkten (von 48,2 auf 51,3), während Qwen3-14B bei sechs Benchmarks von 58,8 auf 61,1 Punkte verbessert wurde. Entscheidend: Diese Vergleichswerte stammen aus Benchmarks, die bei der Konstruktion der Trainingsumgebungen nicht eingesehen wurden.

Besonders relevant für Effizienzanforderungen ist die Skalierbarkeit: RACES erreicht mit nur 50 Basis-Umgebungen Leistungen, die gleichwertig mit dem Training auf 300 individuellen Umgebungen sind. Dies bedeutet eine erhebliche Reduktion des Aufwands bei der Umgebungskonstruktion und des Trainings-Overheads. Das Verfahren überwindet damit die linearen Skalierungsgrenzen manueller Umgebungskonstruktion und eröffnet Möglichkeiten für schnellere Iteration bei der Verbesserung von Reasoning-Fähigkeiten in LLMs.


Quelle: arxiv.org · Erschienen 9. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on: