Auf den Punkt: KVarN reduziert durch verbesserte Token-Scale-Normalisierung die Fehlerakkumulation beim Quantisieren von KV-Caches auf 2-Bit-Genauigkeit und erreicht State-of-the-Art-Ergebnisse auf MATH500, AIME24 und HumanEval.

Forscher stellen KVarN vor, eine neue Quantisierungsmethode für KV-Caches, die Fehlerakkumulation während des autoregressiven Dekodierens bei Multi-Step-Reasoning-Aufgaben deutlich senkt. Die Methode nutzt Hadamard-Rotationen und Dual-Scaling-Varianznnormalisierung.

Während Test-Time-Scaling für verbessertes Reasoning in großen Sprachmodellen vielversprechend ist, entsteht ein Speicherbottleneck durch das Wachstum des KV-Cache während langer Dekodierungssequenzen. KV-Cache-Quantisierung kann hier Abhilfe schaffen, aber bisherige Methoden werden unter statischen Bedingungen evaluiert, die sich vom autoregressiven Dekodieren unterscheiden.

Das zentrale Problem: Bei autoregressivem Dekodieren akkumulieren sich Quantisierungsfehler über die Zeitschritte hinweg. Die Hauptursache sind fehlerhafte Token-Scales, die sich gegenseitig verstärken. KVarN adressiert dies durch eine kalibrierungsfreie Methode, die eine Hadamard-Rotation mit dualer Skalierungsvarianznnormalisierung kombiniert – angewendet auf beide Achsen der K- und V-Matrizen. Diese Kombination bereinigt Token-Scale-Fehler und reduziert die Fehlerakkumulation über mehrere Dekodierungsschritte erheblich.

Auf etablierten Benchmarks – MATH500, AIME24 und HumanEval – erreicht KVarN bei 2-Bit-Präzision neue State-of-the-Art-Ergebnisse. Eine vLLM-Implementierung steht unter https://github.com/huawei-csl/KVarN zur Verfügung, sodass die Methode direkt in bestehende Inference-Pipelines integriert werden kann.

Quelle: arxiv.org · Erschienen 1. Juni 2026
Lumi AI News — KI-assistierte Kuratierung gemaess Art. 50 EU AI Act. Paraphrase und Klassifikation durch Lumi News Pipeline v1.2.9.

Share on:

KVarN: Varianzbasierte KV-Cache-Quantisierung reduziert Fehlerakkumulation

Lumi AI News

Rechtliches

Themenbereiche