Zum Inhalt springen

SEVRA: Selektive Verifikation für effizientere KI-Reasoning bei Inferenzzeit

Share on:

Auf den Punkt: SEVRA spart beim Inferenzen durch selektive Verifikation 26–91 Prozent Tokens ein, ohne die Genauigkeit zu beeinträchtigen, stellt aber längere initiale Lösungsversuche als teilweise kostengünstiger dar.

Forscher der Universität Washington und anderen Instituten haben SEVRA entwickelt, einen Serving-Layer-Controller, der entscheidet, ob die initiale Antwort eines Sprachmodells beibehalten oder durch zusätzliche Verifikation überprüft werden soll. Das System reduziert unnötige Compute-Ausgaben beim Test-Time-Reasoning erheblich.

Test-Time-Reasoning wird zunehmend als Kontrollmechanismus beim Serving eingesetzt, aber zusätzliches Reasoning ist nicht gleichmäßig wertvoll: Es kann fehlgeschlagene Versuche reparieren, aber auch bereits korrekte Antworten unnötig überprüfen oder sie verschlechtern. Forscher behandeln dies als Deployment-Allokationsproblem statt als ein Problem neuer Verifizierer.

SEVRA (Selective Verification for Reasoning Allocation) ist ein Serving-Layer-Controller, der mit einem eingefrorenen Qwen3-4B-Solver arbeitet. Das System protokolliert Interventionsergebnisse und trainiert „Recoverability-aware Gates“ auf Basis von beim Serving sichtbaren Versuchszuständen. Bei Math5 erreicht SEVRA 76,3% Genauigkeit gegenüber 75,5% bei durchgehender Verifikation, reduziert aber die Tokens nach der Generierung um 26,8% und senkt schädliche Antwortänderungen von 2,2% auf 1,0%. Ein 8.192-Token-Initialversuch erreicht jedoch 76,0% Genauigkeit mit 28% weniger Gesamtmodell-Tokens.

Bei Transfer auf GSM8K verifizt die selektive Policy nur 3,0% der Beispiele, verbessert die Genauigkeit von 93,4% auf 94,5% und reduziert Verifikations-Tokens um 91,2% relativ zur durchgehenden Verifikation. Auch hier erreicht ein längerer Initialversuch dieselbe Genauigkeit mit weniger realisierten Tokens. Bei CommonsenseQA schadet durchgehende Verifikation, während Self-Consistency@5 die Genauigkeit verbessert, aber mit etwa fünffachen realisierten Token-Kosten.

Die Deploymentempfehlung lautet: Optimieren Sie zuerst das initiale Compute-Budget, nutzen Sie selektive Verifikation dann, wenn explizite Checks, begrenzte Neuversuche, Nachvollziehbarkeit oder Regressions-Risikokontrolle relevant sind.


Quelle: arxiv.org · Erschienen 17. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.7.1.

Share on: