Auf den Punkt: Reasoning Arena ersetzt uninformative Rewards durch Head-to-Head-Vergleiche von Lösungsversuchen und reduziert dabei die benötigte Rechenzeit um 27 bis 41 Prozent.

Ein neuer Trainingsansatz namens Reasoning Arena behebt ein Kernproblem des Reinforcement Learning mit verifizierbaren Rewards: Wenn alle generierten Lösungsversuche die gleiche Belohnung erhalten, entstehen keine Lerngradienten. Stattdessen vergleicht die Methode Lösungspfade paarweise, um feinere Präferenzmuster zu erkennen.

Das Problem der Gruppen-Monotonie: Reinforcement Learning mit verifizierbaren Rewards (RLVR) trainiert Sprachmodelle darauf, bessere Lösungsversuche zu bevorzugen. Doch bei vielen Prompts erhält eine ganze Gruppe von generierten Lösungsversuchen identische Belohnungen — etwa alle richtig oder alle falsch. In solchen Fällen liefert die standard-Advantage-Schätzung auf Gruppenebene keinen brauchbaren Gradient für das Training, obwohl sich die Versuche in ihrer Lösungsqualität erheblich unterscheiden können.

Lösung durch Turnier-Vergleiche: Reasoning Arena leitet solche uninformativen Reward-Gruppen in ein Judge-System um. Dort werden die Lösungsspuren in Turnieren direkt paarweise verglichen — ähnlich wie bei Bradley-Terry-Modellen aus der Ranking-Literatur. Statt jeden Versuch gegen jeden anderen zu vergleichen (was quadratisch teuer wäre), wird jeder neue Versuch nur gegen einen kleinen, dynamisch aktualisierten Ankersatz vorheriger Versuche bewertet. Die unvollständigen Vergleichsergebnisse werden dann in ein Bradley-Terry-Modell eingepasst, das eine Relative Rangliste ohne vollständige paarweise Vergleiche erzeugt.

Messwerte und Effizienz: In Experimenten mit Wettbewerbsmathematik und Coding-Benchmarks zeigt Reasoning Arena durchschnittlich 7,6 Prozent bessere Leistungen als die reine RLVR-Baseline. Indem sonst ungenutzte Samples mit Null-Advantage in verwertbare Trainings-Updates umgewandelt werden, beschleunigt sich das Training um 27 bis 41 Prozent und spart etwa 50 Prozent der Generierungs-Rechenzeit ein.

Relevanz für CTOs: Dieser Ansatz adressiert ein praktisches Skalierungsproblem beim Fine-Tuning großer Sprachmodelle. Wer Reasoning-Fähigkeiten (Mathematik, Code, Logik) trainiert, trifft regelmäßig auf Reward-Plateaus bei Verifizierung. Reasoning Arena zeigt, dass strukturierte Paarvergleiche mit sparsem Ankersatz eine effiziente Alternative sind — mit direkten Implikationen für Trainingskosten und Modellqualität.

Quelle: arxiv.org · Erschienen 8. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on:

Reasoning Arena: Anthropic nutzt Paarvergleiche statt Verifikation für LLM-Training

Lumi AI News

Rechtliches

Themenbereiche