Auf den Punkt: VaSE erreicht bei 4x KV-Cache-Kompression höhere Genauigkeit als bestehende Sparse-Attention-Methoden und reduziert damit den Speicher-Bottleneck von Reasoning-Modellen.
Reasoning-Modelle benötigen aufgrund ihrer langen Ausgaben große Mengen Speicher für den KV-Cache. Ein neues Training-freies Verfahren namens VaSE schützt wichtige Value-States vor Eviction und nutzt Stochastizität, um die Cache-Effizienz zu verbessern und dabei die Genauigkeit zu wahren.
Reasoning-Modelle, die komplexe Problemlösungsaufgaben durch längere Gedankenketten ausführen, stoßen auf ein zentrales Problem: Ihre ausgedehnten Ausgaben erzeugen hohe Anforderungen an Speicher und Rechenleistung, insbesondere beim Verwalten des KV-Cache (Key-Value-Cache) während der Inferenz. Bisherige KV-Cache-Eviction-Methoden versuchen, weniger wichtige Key-Value-Paare aus dem Cache zu entfernen, erreichen dabei aber häufig niedrigere Genauigkeiten als Sparse-Attention-Methoden, die den vollständigen Cache behalten.
Eine neue Studie identifiziert zwei kritische Faktoren für erfolgreiche KV-Cache-Eviction: Erstens gibt es eine kleine Fraktion von Value-States mit ungewöhnlich großen Magnituden, deren Eviction zu katastrophalem Versagen führt – die Modelle geraten in Wiederholungsschleifen ihrer Reasoning-Prozesse. Zweitens verbessert die Einführung von Stochastizität beim Eviction-Prozess die Genauigkeit, da sie zu einer größeren Cache-Vielfalt führt.
Basierend auf diesen Erkenntnissen wurde Value-aware Stochastic KV Cache Eviction (VaSE) entwickelt. Das Verfahren benötigt kein zusätzliches Training und funktioniert durch zwei Mechanismen: Es schützt Value-States mit großen Magnituden vor Eviction und trifft Eviction-Entscheidungen stochastisch statt deterministisch. Tests mit Qwen3-Modellen über sechs Reasoning-Aufgaben zeigen, dass VaSE bei 4x KV-Cache-Kompression höhere durchschnittliche Genauigkeiten erreicht als State-of-the-Art-Selection-Methoden bei derselben Sparsität. Gegenüber der stärksten bestehenden Eviction-Methode verbessert sich die Genauigkeit um über 4 Prozentpunkte.
VaSE ist mit FlashAttention2 kompatibel und ermöglicht einen statischen Speicher-Footprint für Reasoning-Modelle, wodurch die bislang schwierige Abwägung zwischen Effizienzgewinn und Genauitätsverlust gelöst wird.
Quelle: arxiv.org · Erschienen 2. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.