Zum Inhalt springen

REVES: Iteratives Training für effizientere Test-Time-Skalierung bei LLMs

Share on:

Auf den Punkt: REVES nutzt Zwischenschritte aus erfolgreichen Fehlerbehebungen als separate Trainingsdaten und erreicht damit bessere Leistung mit weniger Rechenaufwand als konventionelle Multi-Turn-Reinforcement-Learning-Methoden.

Forscher haben ein zweistufiges Trainingsframework namens REVES entwickelt, das Sprachmodelle durch gezieltes Lernen aus Zwischenschritten bei der Problemlösung effizienter macht. Das Verfahren extrahiert aus fehlgeschlagenen Lösungsversuchen Revisions- und Verifikationsdaten und reduziert damit den Rechenbedarf gegenüber Standard-RL-Ansätzen deutlich.

Das vorgestellte Verfahren REVES adressiert ein Kernproblem beim Training von Sprachmodellen für mehrstufige Inferenz: Standard-Post-Training-Methoden optimieren typischerweise auf Single-Shot-Ziele hin, während Test-Time-Scaling durch sequenzielle Revisionen mehrere Schritte benötigt. REVES alterniert stattdessen zwischen zwei Phasen – Daten- und Prompt-Augmentation sowie Policy-Optimierung – und konvertiert dabei Zwischenschritte (sogenannte „Near-Miss“-Antworten) aus erfolgreichen Korrekturen in entkoppelte Revisions- und Verifikationsaufgaben.

Die Evaluierung zeigt konkrete Gewinne: Auf LiveCodeBench erreicht das Verfahren +6,5 Punkte über einem RL-Baseline und +4,0 Punkte über Standard-Multi-Turn-Training, gemessen anhand öffentlich verfügbarer Testfälle. Bei Circle-Packing-Problemen erreicht REVES mit einem 4B-Basis-Modell und deutlich weniger Rollouts das bisherige State-of-the-Art-Ergebnis großer evolutionärer Suchsysteme. Auf Mathematik-Aufgaben unter Ground-Truth-Verifikation bestätigt sich die verbesserte Korrektur-Fähigkeit.

Technisch interessant ist der Generalisierungsaspekt: Das Verfahren überträgt auf Out-of-Distribution-Probleme wie n-queens und Mini-Sudoku, wo Korrektheit vollständig durch Problemkonstraints definiert ist. Die Reduktion des Rechenbedarf entsteht durch off-policy Datengenerierung, die das lange Horizont-Sampling bei Standard-Multi-Turn-RL erspart. Der Quellcode ist verfügbar.


Quelle: arxiv.org · Erschienen 16. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: