Zum Inhalt springen

RL-gesteuertes Sampling für Test-Time Scaling bei Large Language Models

Share on:

Auf den Punkt: Ein CPU-basierter RL-Controller optimiert adaptives Sampling beim Test-Time Scaling und reduziert Rechenaufwand sowie Latenz gegenüber heuristischen Verfahren.

Forscher haben einen leichtgewichtigen Sampling-Controller entwickelt, der per Reinforcement Learning trainiert wird und beim Test-Time Scaling von sprachmodellen dynamisch entscheidet, wann genug Samples vorhanden sind. Die Methode balanciert Antwortqualität, Latenz und Rechenaufwand optimiert und läuft auf CPUs.

Das Test-Time Scaling verbessert die Reasoning-Performance von Large Language Models erheblich, führt aber zu substanziellem Rechenaufwand und Latenz. Bestehende adaptive Sampling-Methoden wie ASC und ESC versuchen, dies durch heuristische Entscheidungsregeln zu entschärfen – verlassen sich dabei aber häufig auf fragwürdige Verteilungsannahmen.

Die neue Arbeit (arXiv:2606.03102) formuliert das adaptive Sampling als Markov-Entscheidungsprozess (MDP). Ein leichtgewichtiger RL-trainierter Controller trifft in jeder Runde die Entscheidung: weitere Samples akquirieren oder sampling stoppen. Der Controller nutzt nur Statistiken der finalen Antworten und benötigt während Training und Deployment nur CPU-Ressourcen – keine GPU.

Theoretisch interpretieren die Autoren das System als Lagrange-Relaxation eines constrained optimization problems mit expliziten Budget-Constraints. Experimentelle Vergleiche gegen ASC und ESC zeigen verbesserte Trade-offs zwischen Antwortgenauigkeit, Sampling-Runden und Gesamtzahl benötigter Samples.

Für Engineers ist die Methode relevant, weil sie Inference-Kosten und Latenz bei Reasoning-Tasks senkt, ohne spezielle Hardware vorauszusetzen. Die MDP-Formulierung erlaubt zudem direkte Erweiterungen, etwa für andere Kostenfunktionen oder Multi-Token-Szenarien.


Quelle: arxiv.org · Erschienen 2. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.

Share on: