Auf den Punkt: GRAIL nutzt Gradient-Aktivierungs-Salienz, um relevante Reasoning-Schritte stärker zu trainieren als irrelevante Token, und erreicht 3,60% Genauigkeitsverbesserung ohne separate Prozess-Level-Überwachung.

Forscher präsentieren GRAIL, eine Methode zur Optimierung von Large Language Models im mathematischen Reasoning, die Token statt ganzer Sequenzen differenziert bewertet und damit kostspieligere Prozess-Reward-Modelle erspart.

Das Reinforcement Learning mit verifizierbaren Rewards (etwa GRPO) ist zur Standard-Methode für die Verbesserung des mathematischen Reasonings in großen Sprachmodellen geworden. Bisherige Verfahren vergeben jedoch typischerweise einen Vorteil-Wert auf Sequenzebene für alle Tokens gleichberechtigt oder nutzen prozessintensive Reward-Modelle (PRMs) für Schritt-für-Schritt-Supervisionierung. Diese einheitliche Vorteil-Verteilung unterstellt, dass alle Tokens gleichermaßen zum finalen Ergebnis beitragen.

Das Problem dieser Gleichbehandlung: Fehlerhafte Reasoning-Schritte und Füllwörter erhalten die gleiche Gradienten-Intensität wie tatsächlich relevante logische Schlussfolgerungen. Dies verdünnt das Trainingssignal, da kritische und unkritische Tokens mit gleicher Kraft aktualisiert werden. GRAIL adressiert dies durch Token-weise Advantage-Reweighting mittels Gradient-Aktivierungs-Salienz – eine Methode, die höheres Gewicht auf Tokens legt, die lokal sensitiv für die finale Antwort sind.

Quelle: arxiv.org · Erschienen 2. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.

Share on:

GRAIL: Verbessertes Reinforcement Learning für mathematisches Reasoning in LLMs

Lumi AI News

Rechtliches

Themenbereiche