Zum Inhalt springen

Bebop: Rejection Sampling verbessert Multi-Token-Prediction in RL-Training

Share on:

Auf den Punkt: Bebop nutzt Rejection Sampling und TV-Loss-Optimierung, um MTP-Akzeptanzraten in RL-Training stabil zu halten und Rollouts um bis zu 1,8-fach zu beschleunigen.

Forschende haben ein systematisches Verfahren entwickelt, um Rollout-Engpässe im Reinforcement-Learning von großen Sprachmodellen zu beheben. Durch Rejection Sampling und ein neues TV-Loss-Optimierungsverfahren erreichen sie bis zu 1,8-fache End-to-End-Beschleunigung beim RL-Training.

Der Rollout-Prozess ist aktuell der zentrale Leistungsengpass in RL-Trainingspipelines für Large Language Models. Multi-Token Prediction (MTP) bietet über Speculative Decoding ein natürliches Lösungspotenzial, doch in der Praxis sinken die MTP-Akzeptanzraten während des RL-Trainings stark ab, was nur begrenzte Speedup-Gewinne erbringt.

Die Studie Bebop identifiziert die Grundursache: Die MTP-Akzeptanzrate ist fundamental durch die Fluktuation der Modell-Entropie limitiert, die sich während des RL-Trainings deutlich negativ auswirkt. Probabilistisches Rejection Sampling reduziert diese Entropie-Störungen deutlich besser als Greedy-Draft-Sampling. Darüber hinaus zeigen die Forschenden, dass konventionelle MTP-Trainingsziele (Cross-Entropy oder KL-Divergenz) für diesen Kontext suboptimal sind.

Die Lösung liegt in einem neuen End-to-End-TV-Loss, das die Multi-Step-Rejection-Sampling-Akzeptanzrate direkt optimiert. Dies führt zu rund 10 Prozent höheren Akzeptanzraten, mit beobachteten Spitzenwerten von 95 Prozent und bis zu 25 Prozent zusätzlichem Inference-Durchsatz über mathematische Reasoning-, Code-Generierungs- und Agenten-Aufgaben hinweg.

Die Forschenden evaluierten verschiedene Online-MTP-Trainingsstrategien während des RL-Prozesses. Pre-RL-MTP-Training mit End-to-End-TV-Loss und Rejection Sampling hält die Akzeptanzrate über das gesamte RL-Training stabil und elimininiert kostspielige Online-Aktualisierungen. Experimente auf den Qwen-3.5-, Qwen-3.6- und Qwen-3.7-Modellen zeigen bis zu 1,8-fache End-to-End-Beschleunigung im asynchronen RL-Training.


Quelle: arxiv.org · Erschienen 9. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.6.5.

Share on: