STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

Share on:

Auf den Punkt: STARE nutzt Überraschungsmetriken und selektive Advantage-Reweighting, um Policy-Entropie über lange Trainingssequenzen stabil zu halten und dabei Genauigkeit um 4–8 % zu verbessern.

Forscher haben eine Methode zur Stabilisierung des Reinforcement-Learning-Trainings großer Sprachmodelle entwickelt, indem sie gezielt Token-Level-Vorteile neu gewichten. Das Verfahren STARE adressiert das Problem des Entropie-Kollapses, der bei GRPO-Algorithmen zu einer Reduktion der Modellvielfalt führt.

Das Verfahren STARE (Surprisal-guided Token-level Advantage Reweighting for policy Entropy stability) behebt eine zentrale Herausforderung bei der Verwendung von GRPO und verwandten Verifiable-Rewards-Algorithmen: Der Training läuft Gefahr, dass die Modellpolicy zu einem sehr engen Spektrum von Ausgaben konvergiert und dabei die Fähigkeit zur Exploration verliert.

Die Grundidee basiert auf einer Gradientenanalyse der Token-Level-Entropie-Dynamiken. Die Forscher zeigen, dass die pro-Token Entropie-Variation durch das Produkt von Trajectory-Level-Vorteil und einer Entropie-Sensitivitätsfunktion über die nächste Token-Verteilung beschrieben werden kann. Dies führt zu einer Vier-Quadranten-Struktur, in der bestimmte Tokens kritischer für die Entropie-Stabilität sind als andere.

STARE identifiziert diese kritischen Token-Subsets mittels Batch-interner Überraschungs-Quantile (Surprisal Quantiles) und regewichtet ihre effektiven Vorteile selektiv. Zusätzlich nutzt das Verfahren ein zielgerichtetes Entropie-Gating-System, das die Policy-Entropie innerhalb einer definierten Zielzone hält. Tests zeigen, dass STARE über Tausende Trainingsschritte hinweg stabile Entropiewerte aufrechterhält, während die Modellgröße von 1,5B bis 32B variiert wird.

Auf den Benchmarks AIME24 und AIME25 übertrifft STARE konkurrierende Baselines wie DAPO um 4–8 % durchschnittliche Genauigkeit. Gleichzeitig wachsen Reflection-Tokens und Response-Länge parallel zur Verbesserung, was auf ein erhaltenes Explorationsgleichgewicht hindeutet. Der Quellcode ist öffentlich verfügbar.

Quelle: arxiv.org · Erschienen 16. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on:

STARE: Token-Level Stabilitätsverfahren gegen Policy-Entropie-Kollaps in GRPO-Training

Lumi AI News

Rechtliches

Themenbereiche